Informazioni sul menu di ricerca per indicizzazione

Utilizza il set di date e URL del menu di ricerca per indicizzazione, le maschere, le password, i tipi di contenuto, le connessioni, le definizioni dei moduli e i punti di ingresso URL.

Informazioni sui punti di ingresso URL

La maggior parte dei siti web dispone di un punto di ingresso principale o di una home page che un cliente visita inizialmente. Questo punto di ingresso principale è l'indirizzo URL da cui il robot di ricerca inizia la ricerca per indicizzazione. Tuttavia, se il sito web dispone di più domini o sottodomini o se parti del sito non sono collegate dal punto di ingresso principale, puoi utilizzare i punti di ingresso URL per aggiungere altri punti di ingresso.

Vengono indicizzate tutte le pagine del sito web al di sotto di ciascun punto di ingresso URL specificato. È possibile combinare punti di ingresso URL con maschere per controllare esattamente quali parti di un sito web si desidera indicizzare. È necessario ricreare l’indice del sito web prima che gli effetti delle impostazioni dei punti di ingresso URL siano visibili ai clienti.

Il punto di ingresso principale è in genere l’URL del sito web che si desidera indicizzare e cercare. Puoi configurare questo punto di ingresso principale in Impostazioni account.

Consulta Configurazione delle impostazioni account.

Dopo aver specificato il punto di ingresso dell’URL principale, è possibile specificare facoltativamente altri punti di ingresso che si desidera sottoporre a ricerca per indicizzazione in ordine. Nella maggior parte dei casi si specificano punti di ingresso aggiuntivi per le pagine web non collegate da pagine sotto il punto di ingresso principale. Specifica punti di ingresso aggiuntivi quando il sito web si estende su più domini, come nell’esempio seguente:

https://www.domain.com/

https://www.domain.com/not_linked/but_search_me_too/

https://more.domain.com/

È possibile qualificare ogni punto di ingresso con una o più delle seguenti parole chiave separate da spazio nella tabella seguente. Queste parole chiave influiscono sulla modalità di indicizzazione della pagina.

Importante: Assicurarsi di separare una determinata parola chiave dal punto di ingresso e l'uno dall'altro tramite uno spazio; una virgola non è un separatore valido.

Parola chiave

Descrizione

noindex

Se non si desidera indicizzare il testo nella pagina del punto di ingresso, ma si desidera seguire i collegamenti della pagina, aggiungere noindex dopo il punto di ingresso.

Separa la parola chiave dal punto di ingresso con uno spazio come nell'esempio seguente:

https://www.my-additional-domain.com/more_pages/main.html noindex

Questa parola chiave equivale a un tag meta di robot con content="noindex" ) tra <head> ... Tag </head> della pagina del punto di ingresso.

nofollow

Se si desidera indicizzare il testo nella pagina del punto di ingresso ma non si desidera seguire i collegamenti della pagina, aggiungere nofollow dopo il punto di ingresso.

Separa la parola chiave dal punto di ingresso con uno spazio come nell'esempio seguente:

https://www.domain.com/not_linked/directory_listing&nbsp;nofollow

Questa parola chiave equivale a un tag meta di robot con content="nofollow" tra <head> ... Tag </head> di una pagina del punto di ingresso.

modulo

Quando il punto di ingresso è una pagina di accesso, form viene generalmente utilizzato in modo che il robot di ricerca possa inviare il modulo di login e ricevere i cookie appropriati prima di eseguire la ricerca per indicizzazione del sito web. Quando si utilizza la parola chiave "form", la pagina del punto di ingresso non viene indicizzata e il robot di ricerca non contrassegna la pagina del punto di ingresso come sottoposta a ricerca per indicizzazione. Utilizzo nofollow se non desideri che il robot di ricerca segua i collegamenti della pagina.

Consulta anche Informazioni sui tipi di contenuto.

Vedere anche Informazioni sul connettore indice.

Aggiunta di più punti di ingresso URL da indicizzare

Se il sito web dispone di più domini o sottodomini e desideri che vengano sottoposti a ricerca per indicizzazione, puoi utilizzare i punti di ingresso URL per aggiungere altri URL.

Per impostare il punto di ingresso URL principale del sito web, utilizza Impostazioni account.

Consulta Configurazione delle impostazioni account.

Per aggiungere più punti di ingresso URL da indicizzare

  1. Dal menu del prodotto, fai clic su Settings > Crawling > URL Entrypoints.

  2. Nella pagina URL Entrypoints , immetti un indirizzo URL per riga nel campo Entrypoints .

  3. (Facoltativo) Nell'elenco a discesa Add Index Connector Configurations , seleziona un connettore indice da aggiungere come punto di ingresso per l'indicizzazione.

    L’elenco a discesa è disponibile solo se in precedenza sono state aggiunte una o più definizioni di connettore indice.

    Vedere Aggiunta di una definizione del connettore indice.

  4. Clic Save Changes.

  5. (Facoltativo) Effettua una delle seguenti operazioni:

Informazioni sulle maschere URL

Le maschere URL sono pattern che determinano quale dei documenti del sito web il robot di ricerca indicizza o meno gli indici.

Assicurati di ricostruire l'indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Di seguito sono riportati due tipi di maschere URL che puoi utilizzare:

  • Includi maschere URL
  • Escludere le maschere URL

Includi maschere URL dicono al robot di ricerca di indicizzare tutti i documenti che corrispondono al pattern della maschera.

Le maschere URL di esclusione indicano al robot di ricerca di indicizzare i documenti corrispondenti.

Mentre il robot di ricerca viaggia da un link a un link attraverso il tuo sito web, incontra URL e cerca maschere che corrispondono a quegli URL. La prima corrispondenza determina se includere o escludere tale URL dall’indice. Se nessuna maschera corrisponde a un URL rilevato, tale URL viene scartato dall'indice.

Le maschere URL di inclusione per gli URL del punto di ingresso vengono generate automaticamente. Questo comportamento assicura l’indicizzazione di tutti i documenti presenti sul sito web. Permette inoltre di eliminare comodamente i link che "lasciano" il tuo sito web. Ad esempio, se una pagina indicizzata si collega a https://www.yahoo.com, il robot di ricerca non indicizza tale URL perché non corrisponde alla maschera di inclusione generata automaticamente dall’URL del punto di ingresso.

Ogni maschera URL specificata deve trovarsi su una riga separata.

La maschera può specificare uno dei seguenti elementi:

  • Un percorso completo come in https://www.mydomain.com/products.html.

  • Un percorso parziale come in https://www.mydomain.com/products.

  • URL che utilizza caratteri jolly come in https://www.mydomain.com/*.html.

  • Un’espressione regolare (per gli utenti avanzati).

    Per rendere una maschera un'espressione regolare, inserisci la parola chiave regexp tra il tipo di maschera ( exclude o include) e la maschera URL.

Di seguito è riportato un semplice esempio di maschera di esclusione URL:

exclude https://www.mydomain.com/photos

Poiché questo esempio è una maschera di esclusione URL, qualsiasi documento che corrisponde al pattern non viene indicizzato. Il pattern corrisponde a qualsiasi elemento rilevato, sia file che cartelle, in modo che https://www.mydomain.com/photos.html e https://www.mydomain.com/photos/index.html, entrambi corrispondenti all’URL di esclusione, non siano indicizzati. Per far corrispondere solo i file presenti nella cartella /photos/ , la maschera URL deve contenere una barra finale, come nell’esempio seguente:

exclude https://www.mydomain.com/photos/

L'esempio di maschera di esclusione seguente utilizza un carattere jolly. Indica al robot di ricerca di ignorare i file con l'estensione ".pdf". Il robot di ricerca non aggiunge questi file all'indice.

exclude *.pdf

Una semplice maschera URL include è la seguente:

include https://www.mydomain.com/news/

Sono indicizzati solo i documenti collegati tramite una serie di collegamenti da un punto di ingresso URL o utilizzati come punto di ingresso URL. L’elenco esclusivo dell’URL di un documento come maschera URL di inclusione non indicizza un documento non collegato. Per aggiungere all’indice documenti non collegati, puoi utilizzare la funzione Punti di ingresso URL .

Consulta Informazioni sui punti di ingresso URL.

Le maschere di inclusione e di esclusione possono funzionare insieme. Puoi escludere un’ampia parte del sito web dall’indicizzazione creando una maschera di URL esclusa ma includi una o più delle pagine escluse con una maschera URL inclusa. Ad esempio, supponiamo che l’URL del punto di ingresso sia il seguente:

https://www.mydomain.com/photos/

Il robot di ricerca esegue la ricerca per indicizzazione e indicizza tutte le pagine sotto /photos/summer/, /photos/spring/ e /photos/fall/ (partendo dal presupposto che siano presenti collegamenti ad almeno una pagina in ciascuna directory dalla cartella photos). Questo comportamento si verifica perché i percorsi di collegamento consentono al robot di ricerca di trovare i documenti nelle cartelle /summer/, /spring/ e /fall/ e gli URL delle cartelle corrispondono alla maschera di inclusione generata automaticamente dall'URL del punto di ingresso.

Puoi scegliere di escludere tutte le pagine della cartella /fall/ con una maschera di esclusione URL come nell’esempio seguente:

exclude https://www.mydomain.com/photos/fall/

Oppure, includi in modo selettivo solo /photos/fall/redleaves4.html come parte dell'indice con la seguente maschera URL:

include https://www.mydomain.com/photos/fall/redleaves4.html

Affinché i due esempi di maschera di cui sopra funzionino come previsto, la maschera di inclusione è elencata per prima, come nell'esempio seguente:

include https://www.mydomain.com/photos/fall/redleaves4.html 
exclude https://www.mydomain.com/photos/fall/

Poiché il robot di ricerca segue le direzioni nell'ordine in cui sono elencate, il robot di ricerca include prima /photos/fall/redleaves4.html, quindi esclude il resto dei file presenti nella cartella /fall.

Se le istruzioni sono specificate nel modo opposto a quello indicato di seguito:

exclude https://www.mydomain.com/photos/fall/ 
include https://www.mydomain.com/photos/fall/redleaves4.html

Quindi /photos/fall/redleaves4.html non è incluso, anche se la maschera specifica che è incluso.

Una maschera URL che appare per prima ha sempre la precedenza su una maschera URL che appare successivamente nelle impostazioni della maschera. Inoltre, se il robot di ricerca incontra una pagina che corrisponde a una maschera URL di inclusione e una maschera URL di esclusione, la maschera elencata per prima ha sempre la precedenza.

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Utilizzo delle parole chiave con le maschere URL

È possibile qualificare ogni maschera di inclusione con una o più parole chiave separate da spazio, che influiscono sulla modalità di indicizzazione delle pagine corrispondenti.

Una virgola non è valida come separatore tra la maschera e la parola chiave; puoi usare solo spazi.

Parola chiave

Descrizione

noindex

Se non desideri indicizzare il testo nelle pagine che corrispondono alla maschera URL, ma desideri seguire i collegamenti alle pagine corrispondenti, aggiungi noindex dopo la maschera URL di inclusione. Separa la parola chiave dalla maschera con uno spazio come nell'esempio seguente:

include&nbsp;*.swf&nbsp;noindex

L'esempio precedente specifica che il robot di ricerca segue tutti i collegamenti da file con Estensione .swf , ma disabilita l'indicizzazione di tutto il testo contenuto in tali file.

La La parola chiave noindex equivale a un tag meta robot con content="noindex" tra <head>...</head> tag di pagine corrispondenti.

nofollow

Se desideri indicizzare il testo nelle pagine che corrispondono alla maschera URL, ma non desideri seguire i collegamenti della pagina corrispondente, aggiungi nofollow dopo la maschera URL di inclusione. Separa la parola chiave dalla maschera con uno spazio come nell'esempio seguente:

include&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

La La parola chiave nofollow equivale a un tag meta robot con content="nofollow" tra <head>...</head> tag di pagine corrispondenti.

rigexp

Utilizzata sia per includere che per escludere le maschere.

Qualsiasi maschera URL preceduta da regexp viene trattato come un’espressione regolare. Se il robot di ricerca rileva documenti che corrispondono a una maschera URL con espressione regolare esclusa, tali documenti non vengono indicizzati. Se il robot di ricerca rileva documenti che corrispondono a una maschera URL con espressione regolare, questi documenti vengono indicizzati. Ad esempio, supponiamo di avere la seguente maschera URL:

exclude&nbsp;regexp&nbsp;^.*/products/.*\.html$

Il robot di ricerca esclude i file corrispondenti, ad esempio https://www.mydomain.com/products/page1.html

Se hai avuto la seguente esclusione della maschera URL con espressione regolare:

exclude&nbsp;regexp&nbsp;^.*\?..*$

Il robot di ricerca non deve includere alcun URL contenente un parametro CGI come https://www.mydomain.com/cgi/prog/?arg1=val1&arg2=val2 .

Se avevi la seguente maschera URL con espressione regolare:

include&nbsp;regexp&nbsp;^.*\.swf$&nbsp;noindex

Il robot di ricerca segue tutti i collegamenti da file con estensione ".swf". La La parola chiave noindex specifica inoltre che il testo dei file corrispondenti non è indicizzato.

Consulta Espressioni regolari .

Aggiunta di maschere URL per indicizzare o meno parti del sito web

È possibile utilizzare URL Masks per definire quali parti del sito web si desidera o meno sottoporre a ricerca per indicizzazione e indicizzare.

Utilizza il campo Maschere URL di test per verificare se un documento è incluso o meno dopo l'indicizzazione.

Assicurati di ricostruire l'indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Per aggiungere maschere URL per indicizzare o non indicizzare parti del sito web

  1. Dal menu del prodotto, fai clic su Settings > Crawling > URL Masks.

  2. (Facoltativo) Nella pagina URL Masks, nel campo Test URL Masks immetti una maschera URL di prova dal sito web, quindi fai clic su Test.

  3. Nel campo URL Masks , digita include (per aggiungere un sito web che desideri sottoporre a ricerca per indicizzazione e indicizzazione) oppure digita exclude (per impedire che un sito web venga sottoposto a ricerca per indicizzazione e indicizzazione), seguito dall’indirizzo della maschera URL.

    Immettere un indirizzo di maschera URL per riga. Esempio:

    include https://www.mycompany.com/summer 
    include https://www.mycompany.com/spring 
    exclude regexp .*\.xml 
    exclude https://www.mycompany.com/fall
    
  4. Clic Save Changes.

  5. (Facoltativo) Effettua una delle seguenti operazioni:

Informazioni sulle maschere di data

È possibile utilizzare le maschere di data per includere o escludere i file dai risultati della ricerca in base all’età del file.

Assicurati di ricostruire l'indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Di seguito sono riportati due tipi di maschere data che è possibile utilizzare:

  • Includi maschere di data ("include-days" e "include-date")

    Includi i file di indice delle maschere di data che sono datati alla data specificata o prima di essa.

  • Escludere le maschere di data ("giorni di esclusione" e "data di esclusione")

    Escludere i file di indice delle maschere di data che sono datati alla data specificata o prima di essa.

Per impostazione predefinita, la data del file è determinata dalle informazioni del tag meta. Se non viene trovato alcun tag Meta , la data di un file viene determinata dall’intestazione HTTP ricevuta dal server quando il robot di ricerca scarica un file.

Ogni maschera data specificata deve trovarsi su una riga separata.

La maschera può specificare uno dei seguenti elementi:

  • Un percorso completo come in https://www.mydomain.com/products.html
  • Un percorso parziale come in https://www.mydomain.com/products
  • URL che utilizza caratteri jolly https://www.mydomain.com/*.html
  • Un'espressione regolare. Per rendere una maschera un'espressione regolare, inserisci la parola chiave regexp prima dell'URL.

Le maschere di data di inclusione e di esclusione possono specificare una data in uno dei due modi seguenti. Le maschere vengono applicate solo se i file corrispondenti sono stati creati alla data specificata o prima di essa:

  1. Un numero di giorni. Ad esempio, supponiamo che la maschera data sia la seguente:

    exclude-days 30 https://www.mydomain.com/docs/archive/)
    

    Il numero di giorni specificati viene conteggiato nuovamente. Se il file è datato il o prima della data di arrivo, la maschera viene applicata.

  2. Una data effettiva utilizzando il formato AAAA-MM-GG. Ad esempio, supponiamo che la maschera data sia la seguente:

    include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
    

    Se il documento corrispondente è datato alla data specificata o prima di essa, viene applicata la maschera data.

Di seguito è riportato un semplice esempio di maschera di data di esclusione:

exclude-days 90 https://www.mydomain.com/docs/archive

Poiché si tratta di una maschera di data di esclusione, qualsiasi file che corrisponde al pattern non viene indicizzato ed ha 90 giorni di età o meno. Quando si esclude un documento, non viene indicizzato alcun testo e dal file non vengono seguiti collegamenti. Il file viene effettivamente ignorato. In questo esempio, sia i file che le cartelle potrebbero corrispondere al pattern URL specificato. Tieni presente che sia https://www.mydomain.com/docs/archive.html che https://www.mydomain.com/docs/archive/index.html corrispondono al pattern e non sono indicizzati se hanno 90 giorni o meno di età. Per far corrispondere solo i file presenti nella cartella /docs/archive/, la maschera di data deve contenere una barra finale come illustrato di seguito:

exclude-days 90 https://www.mydomain.com/docs/archive/

Le maschere di data possono essere utilizzate anche con i caratteri jolly. La seguente maschera di esclusione indica al robot di ricerca di ignorare i file con estensione ".pdf" che sono datati il 2011-02-15 o prima. Il robot di ricerca non aggiunge alcun file corrispondente al tuo indice.

exclude-date 2011-02-15 *.pdf

Include date mask ha un aspetto simile, solo i file corrispondenti vengono aggiunti all'indice. L'esempio seguente include date mask indica al robot di ricerca di indicizzare il testo da qualsiasi file che abbiano zero giorni di età o meno nell'area /docs/archive/manual/ del sito web.

include-days 0 https://www.mydomain.com/docs/archive/manual/

Le maschere di inclusione e di esclusione possono funzionare insieme. Ad esempio, puoi escludere un’ampia parte del sito web dall’indicizzazione creando una maschera di data di esclusione, includendo tuttavia una o più delle pagine escluse con una maschera URL di inclusione. Se l’URL del punto di ingresso è il seguente:

https://www.mydomain.com/archive/

Il robot di ricerca esegue la ricerca per indicizzazione e indicizza tutte le pagine sotto /archive/summer/, /archive/spring/ e /archive/fall/ (partendo dal presupposto che siano presenti collegamenti ad almeno una pagina in ciascuna cartella della cartella archive ). Questo comportamento si verifica perché i percorsi di collegamento consentono al robot di ricerca di "trovare" i file nelle cartelle /summer/, /spring/ e /fall/ e gli URL delle cartelle corrispondono alla maschera di inclusione generata automaticamente dall’URL del punto di ingresso.

Consulta Informazioni sui punti di ingresso URL.

Consulta Configurazione delle impostazioni account.

È possibile scegliere di escludere tutte le pagine di età superiore a 90 giorni nella cartella /fall/ con una maschera di data di esclusione, come illustrato di seguito:

exclude-days 90 https://www.mydomain.com/archive/fall/

È possibile includere selettivamente solo /archive/fall/index.html (indipendentemente dall'età, qualsiasi file di 0 giorni o più vecchi corrisponde) come parte dell'indice con la seguente maschera di data:

include-days 0 https://www.mydomain.com/archive/fall/index.html

Affinché i due esempi di maschera di cui sopra funzionino come previsto, è necessario elencare prima la maschera di inclusione come nell'esempio seguente:

include-days 0 https://www.mydomain.com/archive/fall/index.html 
exclude-days 90 https://www.mydomain.com/archive/fall/

Poiché il robot di ricerca segue le indicazioni nell'ordine specificato, il robot di ricerca include prima /archive/fall/index.html, quindi esclude il resto dei file nella cartella /fall.

Se le istruzioni sono specificate nel modo opposto a quello indicato di seguito:

exclude-days 90 https://www.mydomain.com/archive/fall/ 
include-days 0 https://www.mydomain.com/archive/fall/index.html 

Quindi /archive/fall/index.html non è incluso, anche se la maschera specifica che dovrebbe essere. Una maschera di data che appare per prima ha sempre la precedenza su una maschera di data che potrebbe apparire successivamente nelle impostazioni della maschera. Inoltre, se il robot di ricerca rileva una pagina che corrisponde sia a una maschera di data di inclusione che a una maschera di data di esclusione, la maschera elencata per prima ha sempre la precedenza.

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Informazioni sull’utilizzo delle parole chiave con le maschere data

È possibile qualificare ogni maschera di inclusione con una o più parole chiave separate da spazio, che influiscono sulla modalità di indicizzazione delle pagine corrispondenti.

Una virgola non è valida come separatore tra la maschera e la parola chiave; puoi usare solo spazi.

Parola chiave

Descrizione

noindex

Se non si desidera indicizzare il testo nelle pagine che sono date in o prima della data specificata dalla maschera di inclusione, aggiungere noindex dopo la maschera di data di inclusione, come illustrato di seguito:

include-days&nbsp;10&nbsp;*.swf&nbsp;noindex

Separa la parola chiave dalla maschera con uno spazio.

L'esempio precedente specifica che il robot di ricerca segue tutti i collegamenti da file con estensione ".swf" che hanno 10 giorni o più. Tuttavia, disabilita l’indicizzazione di tutto il testo contenuto in tali file.

È possibile assicurarsi che il testo per i file precedenti non sia indicizzato ma segua comunque tutti i collegamenti da tali file. In questi casi, utilizza una maschera data di inclusione con la parola chiave "noindex" invece di utilizzare una maschera data di esclusione.

nofollow

Se si desidera indicizzare il testo nelle pagine che sono date in o prima della data specificata dalla maschera di inclusione, ma non si desidera seguire i collegamenti della pagina corrispondente, aggiungere nofollow dopo la maschera di data di inclusione, come illustrato di seguito:

include-days&nbsp;8&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

Separa la parola chiave dalla maschera con uno spazio.

La La parola chiave nofollow equivale a un tag meta robot con content="nofollow" tra Tag <head>...</head> di pagine corrispondenti.

data server

Utilizzata sia per includere che per escludere le maschere.

Il robot di ricerca generalmente scarica e analizza ogni file prima di controllare la data di mascheramento. Questo comportamento si verifica perché alcuni tipi di file possono specificare una data all’interno del file stesso. Ad esempio, un documento HTML può includere meta tag che impostano la data del file.

Se escludi molti file in base alla loro data e non desideri caricare i server in modo non necessario, puoi utilizzare server-date dopo l’URL nella maschera data.

Questa parola chiave indica al robot di ricerca di considerare attendibile la data del file restituito dal server anziché analizzare ogni file. Ad esempio, la seguente maschera di data di esclusione ignora le pagine che corrispondono all'URL se i documenti hanno 90 giorni o meno, in base alla data restituita dal server nelle intestazioni HTTP:

exclude-days&nbsp;90&nbsp;https://www.mydomain.com/docs/archive&nbsp;server-date

Se la data restituita dal server è precedente o superiore a 90 giorni, server-date specifica che i documenti esclusi non possono essere scaricati dal server. Il risultato è un tempo di indicizzazione più rapido per i documenti e un carico ridotto posizionato sui server. Se server-date non è specificato, il robot di ricerca ignora la data restituita dal server nelle intestazioni HTTP. Invece, ogni file viene scaricato e controllato per vedere se la data è specificata. Se nel file non è specificata alcuna data, il robot di ricerca utilizza la data restituita dal server.

Non utilizzare server-date se i file contengono comandi che ignorano la data del server.

rigexp

Utilizzate sia per includere che per escludere le maschere.

Qualsiasi maschera di data preceduta da regexp viene trattato come un’espressione regolare.

Se il robot di ricerca rileva file che corrispondono a una maschera di data con espressione regolare esclusa, non indicizza tali file.

Se il robot di ricerca rileva file che corrispondono a una maschera di data con espressione regolare inclusa, indicizza tali documenti.

Ad esempio, supponiamo di avere la seguente maschera data:

exclude-days&nbsp;180&nbsp;regexp&nbsp;.*archive.*

La maschera dice al robot di ricerca di escludere i file corrispondenti che sono 180 giorni o più. Cioè, file che contengono la parola "archivio" nel loro URL.

Consulta Espressioni regolari .

Aggiunta di maschere di data per indicizzare o non indicizzare parti del sito web

È possibile utilizzare le maschere data per includere o escludere i file dai risultati della ricerca del cliente in base all’età dei file.

Utilizza i campi Test Date e Test URL per verificare se un file è incluso o meno dopo l’indice.

Assicurati di ricostruire l'indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Per aggiungere maschere di data per indicizzare o non indicizzare parti del sito web

  1. Dal menu del prodotto, fai clic su Settings > Crawling > Date Masks.

  2. (Facoltativo) Nella pagina Date Masks, nel campo Test Date immettere una data formattata come AAAA-MM-GG (ad esempio, 2011-07-25); nel campo Test URL , immetti una maschera URL dal sito web, quindi fai clic su Test.

  3. Nel campo Date Masks , immetti un indirizzo maschera data per riga.

  4. Clic Save Changes.

  5. (Facoltativo) Effettua una delle seguenti operazioni:

Informazioni sulle password

Per accedere a parti del sito Web protette con l'autenticazione HTTP Basic, è possibile aggiungere una o più password.

Prima che gli effetti delle impostazioni Password siano visibili ai clienti, è necessario ricostruire l'indice del sito.

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Nella pagina Passwords, digita ogni password su una sola riga. La password è costituita da un URL o un realm, un nome utente e una password, come nell’esempio seguente:

https://www.mydomain.com/ myname mypassword

Invece di usare un percorso URL, come sopra, puoi anche specificare un realm.

Per determinare il realm corretto da utilizzare, aprire una pagina web protetta da password con un browser e guardare la finestra di dialogo "Immettere password di rete".

Il nome dell'area di autenticazione, in questo caso, è "Area di lavoro del sito personale".

Utilizzando il nome del realm sopra riportato, la password potrebbe avere l'aspetto seguente:

My Site Realm myusername mypassword

Se il sito web dispone di più aree di autenticazione, è possibile creare più password immettendo un nome utente e una password per ogni area di autenticazione su una riga separata, come nell'esempio seguente:

Realm1 name1 password1 
Realm2 name2 password2 
Realm3 name3 password3

È possibile combinare password che contengono URL o realm in modo che l'elenco delle password possa avere l'aspetto seguente:

Realm1 name1 password1 
https://www.mysite.com/path1/path2 name2 password2 
Realm3 name3 password3 
Realm4 name4 password4 
https://www.mysite.com/path1/path5 name5 password5 
https://www.mysite.com/path6 name6 password6

Nell'elenco precedente, viene utilizzata la prima password che contiene un realm o un URL corrispondente alla richiesta di autenticazione del server. Anche se il file in https://www.mysite.com/path1/path2/index.html si trova in Realm3, ad esempio, vengono utilizzati name2 e password2 perché la password definita con l'URL è elencata sopra quella definita con l'area di autenticazione.

Aggiunta di password per accedere alle aree del sito web che richiedono autenticazione

Puoi utilizzare Password per accedere alle aree protette da password del tuo sito web a scopo di ricerca per indicizzazione e indicizzazione.

Prima che gli effetti della password siano visibili ai clienti, assicurati di ricostruire il tuo indice del sito

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Per aggiungere password per accedere alle aree del sito web che richiedono autenticazione

  1. Dal menu del prodotto, fai clic su Settings > Crawling > Passwords.

  2. Nella pagina Passwords, immetti un realm o un URL nel campo Passwords e il nome utente e la password associati, separati da uno spazio.

    Esempio di password di un realm e di un URL su righe separate:

    Realm1 name1 password1 
    https://www.mysite.com/path1/path2 name2 password2
    

    Aggiungi una sola password per riga.

  3. Clic Save Changes.

  4. (Facoltativo) Effettua una delle seguenti operazioni:

Informazioni sui tipi di contenuto

È possibile utilizzare Content Types per selezionare i tipi di file da esaminare e indicizzare per questo account.

I tipi di contenuto che è possibile scegliere di eseguire ricerche per indicizzazione e indicizzazione includono documenti PDF, documenti di testo, filmati di Flash di Adobe, file da applicazioni di Microsoft Office come Word, Excel e Powerpoint e testo in file MP3. Il testo che si trova all’interno dei tipi di contenuto selezionati viene ricercato insieme a tutto il testo presente sul sito web.

Prima che gli effetti delle impostazioni Tipi di contenuto siano visibili ai clienti, devi ricreare l’indice del sito.

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Informazioni sull'indicizzazione dei file musicali MP3

Se selezioni l'opzione Text in MP3 Music Files nella pagina Content Types, un file MP3 viene sottoposto a ricerca per indicizzazione e indicizzato in uno dei due modi seguenti. Il primo e il più comune modo è quello di un tag href di ancoraggio in un file HTML come nel seguente:

<a href="MP3-file-URL"></a>

Il secondo modo è quello di inserire l'URL del file MP3 come punto di ingresso dell'URL.

Consulta Informazioni sui punti di ingresso URL.

Un file MP3 è riconosciuto dal suo tipo MIME "audio/mpeg".

Tieni presente che le dimensioni dei file musicali MP3 possono essere abbastanza grandi, anche se di solito contengono solo una piccola quantità di testo. Ad esempio, i file MP3 possono memorizzare facoltativamente cose come il nome dell'album, il nome dell'artista, il titolo della canzone, il genere della canzone, l'anno di rilascio e un commento. Queste informazioni vengono memorizzate alla fine del file in quello che viene chiamato TAG. I file MP3 contenenti informazioni TAG sono indicizzati nel modo seguente:

  • Il titolo della canzone viene trattato come il titolo di una pagina HTML.
  • Il commento viene trattato come una descrizione definita per una pagina HTML.
  • Il genere viene trattato come una parola chiave definita per una pagina HTML.
  • Il nome dell’artista, il nome dell’album e l’anno di rilascio vengono trattati come il corpo di una pagina HTML.

Tieni presente che ogni file MP3 sottoposto a ricerca per indicizzazione e indicizzato sul tuo sito web conta come una pagina.

Se il tuo sito web contiene molti file MP3 di grandi dimensioni, puoi superare il limite di byte di indicizzazione per il tuo account. In questo caso, puoi deselezionare Text in MP3 Music Files nella pagina Content Types per impedire l'indicizzazione di tutti i file MP3 sul tuo sito web.

Se si desidera solo impedire l'indicizzazione di alcuni file MP3 sul tuo sito web, è possibile effettuare una delle seguenti operazioni:

  • Racchiudi i tag di ancoraggio che collegano ai file MP3 con tag <nofollow> e </nofollow> . Il robot di ricerca non segue i collegamenti tra questi tag.

  • Aggiungi gli URL dei file MP3 come maschere di esclusione.

    Consulta Informazioni sulle maschere URL.

Selezione dei tipi di contenuto per la ricerca per indicizzazione e l'indice

È possibile utilizzare Content Types per selezionare i tipi di file da esaminare e indicizzare per questo account.

I tipi di contenuto che è possibile scegliere di eseguire ricerche per indicizzazione e indicizzazione includono documenti PDF, documenti di testo, filmati di Flash di Adobe, file da applicazioni di Microsoft Office come Word, Excel e Powerpoint e testo in file MP3. Il testo che si trova all’interno dei tipi di contenuto selezionati viene ricercato insieme a tutto il testo presente sul sito web.

Prima che gli effetti delle impostazioni Tipi di contenuto siano visibili ai clienti, devi ricreare l’indice del sito.

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Per eseguire la ricerca per indicizzazione dei file MP3 cinesi, giapponesi o coreani, completa i passaggi seguenti. Quindi, in Settings > Metadata > Injections, specifica il set di caratteri utilizzato per codificare i file MP3.

Vedere Informazioni sulle iniezioni.

Selezione dei tipi di contenuto da sottoporre a ricerca per indicizzazione e per indicizzazione

  1. Dal menu del prodotto, fai clic su Settings > Crawling > Content Types.

  2. Nella pagina Content Types , controlla i tipi di file che desideri esaminare e indicizzare sul tuo sito web.

  3. Clic Save Changes.

  4. (Facoltativo) Effettua una delle seguenti operazioni:

Informazioni sulle connessioni

È possibile utilizzare Connessioni per aggiungere fino a dieci connessioni HTTP utilizzate dal robot di ricerca per indicizzare il sito web.

L’aumento del numero di connessioni può ridurre in modo significativo il tempo necessario per completare una ricerca per indicizzazione e per indicizzazione. Tuttavia, tenere presente che ogni connessione aggiuntiva aumenta il carico sul server.

Aggiunta di connessioni per aumentare la velocità di indicizzazione

È possibile ridurre il tempo necessario per indicizzare il sito web utilizzando Connessioni per aumentare il numero di connessioni HTTP simultanee utilizzate dal crawler. Puoi aggiungere fino a dieci connessioni.

Tieni presente che ogni connessione aggiuntiva aumenta il carico inserito sul server.

Per aggiungere connessioni per aumentare la velocità di indicizzazione

  1. Dal menu del prodotto, fai clic su Settings > Crawling > Connections.

  2. Nella pagina Parallel Indexing Connections , immetti il numero di connessioni (1-10) che desideri aggiungere nel campo Number of Connections .

  3. Clic Save Changes.

  4. (Facoltativo) Effettua una delle seguenti operazioni:

Informazioni sull’invio del modulo

È possibile utilizzare Invio modulo per riconoscere ed elaborare i moduli sul sito web.

Durante la ricerca per indicizzazione e la ricerca per indicizzazione del sito web, ogni modulo rilevato viene confrontato con le definizioni del modulo aggiunte. Se un modulo corrisponde a una definizione di modulo, il modulo viene inviato per l’indicizzazione. Se un modulo corrisponde a più definizioni, viene inviato una sola volta per ciascuna definizione corrispondente.

Aggiunta di definizioni di moduli per l’indicizzazione dei moduli sul sito web

È possibile utilizzare Form Submission per elaborare i moduli riconosciuti sul sito web a scopo di indicizzazione.

Assicurati di ricostruire l'indice del sito in modo che i risultati delle modifiche siano visibili ai clienti.

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Aggiunta di definizioni di moduli per l’indicizzazione dei moduli sul sito web

  1. Dal menu del prodotto, fai clic su Settings > Crawling > Form Submission.

  2. Nella pagina Form Submission, fai clic su Add New Form.

  3. Nella pagina Add Form Definition , imposta le opzioni Form Recognition e Form Submission .

    Le cinque opzioni della sezione Form Recognition nella pagina Form Definition vengono utilizzate per identificare i moduli che possono essere elaborati nelle pagine web.

    Le tre opzioni della sezione Form Submission vengono utilizzate per specificare i parametri e i valori inviati con un modulo al server web.

    Immettere un parametro di riconoscimento o di invio per riga. Ogni parametro deve includere un nome e un valore.

    Opzione

    Descrizione

    Riconoscimento del modulo

    Maschera URL pagina

    Identificare le pagine web che contengono il modulo. Per identificare un modulo visualizzato su una singola pagina, immetti l’URL della pagina come nell’esempio seguente:

    https://www.mydomain.com/login.html

    Per identificare i moduli che vengono visualizzati su più pagine, specificare una maschera URL che utilizzi i caratteri jolly per descrivere le pagine. Per identificare i moduli incontrati in qualsiasi pagina ASP in https://www.mydomain.com/register/ , ad esempio, è necessario specificare quanto segue:

    https://www.mydomain.com/register/*.asp&nbsp;

    È inoltre possibile utilizzare un’espressione regolare per identificare più pagine. Basta specificare regexp parola chiave prima della maschera URL, come nell’esempio seguente:

    regexp&nbsp;^https://www\.mydomain\.com/.*/login\.html$

    Maschera URL azione

    Identifica l'attributo action del Tag <form> .

    Come la maschera URL della pagina, la maschera URL dell’azione può assumere la forma di un singolo URL, un URL con caratteri jolly o un’espressione regolare.

    La maschera URL può essere una delle seguenti:

    • Un percorso completo come nel seguente: https://www.mydomain.com/products.html
    • Un percorso parziale come nell’esempio seguente: https://www.mydomain.com/products
    • Un URL che utilizza caratteri jolly come nell’esempio seguente: https://www.mydomain.com/*.html
    • Un'espressione regolare come nell'esempio seguente: regexp&nbsp^https://www\.mydomain\.com/.*/login\.html$

    Se non si desidera indicizzare il testo nelle pagine identificate da una maschera URL o da una maschera URL di azione, o se non si desidera che i collegamenti siano seguiti in tali pagine, è possibile utilizzare la noindex e nofollow parole chiave. Puoi aggiungere queste parole chiave alle maschere utilizzando maschere URL o punti di ingresso.

    Consulta Informazioni sui punti di ingresso URL .

    Consulta Informazioni sulle maschere URL .

    Maschera nome modulo

    Identifica i moduli se la I tag <form> presenti nelle pagine web contengono un attributo name.

    Puoi utilizzare un nome semplice ( login_form ), un nome con un carattere jolly ( form* ) o un'espressione regolare ( regexp ^.*authorize.*$ ).

    In genere è possibile lasciare vuoto questo campo perché in genere i moduli non dispongono di un attributo nome.

    Maschera ID modulo

    Identifica i moduli se la I tag <form> nelle pagine web contengono un attributo id .

    Puoi utilizzare un nome semplice ( login_form ), un nome con un carattere jolly ( form* ) o un'espressione regolare ( regexp ^.*authorize.*$ ).

    In genere è possibile lasciare vuoto questo campo perché in genere i moduli non dispongono di un attributo nome.

    Parametri

    Identificare i moduli che contengono o non contengono un parametro denominato o un parametro denominato con un valore specifico.

    Ad esempio, per identificare un modulo contenente un parametro di posta elettronica preimpostato su rick_brough@mydomain.com, un parametro di password ma non un parametro di nome, è necessario specificare le seguenti impostazioni di parametro, una per riga:

    email=rick_brough@mydomain.com password not first-name

    Invio modulo

    Ignora URL azione

    Specificare quando la destinazione dell'invio del modulo è diversa da quella specificata nell'attributo action del modulo.

    Ad esempio, è possibile utilizzare questa opzione quando il modulo viene inviato tramite una funzione JavaScript che crea un valore URL diverso da quello trovato nel modulo.

    Metodo di sostituzione

    Specificare quando la destinazione dell'invio del modulo è diversa da quella utilizzata nell'attributo di azione del modulo e quando il JavaScript di invio ha modificato il metodo.

    I valori predefiniti per tutti i parametri del modulo ( Tag <input> , compresi i campi nascosti), impostazione predefinita <option> da un Tag <select> e testo predefinito compreso tra I tag <textarea>...</textarea> ) vengono letti dalla pagina web. Tuttavia, tutti i parametri elencati nella sezione Invio modulo nel campo Parametri vengono sostituiti con i valori predefiniti del modulo.

    Parametri

    È possibile usare il prefisso "Parametri di invio del modulo" not parola chiave.

    Quando si esegue il prefisso di un parametro con not , non viene inviato come parte dell’invio del modulo. Questo comportamento è utile per le caselle di controllo che devono essere inviate deselezionate.

    Ad esempio, si supponga di voler inviare i seguenti parametri:

    • Il parametro e-mail con il valore nobody@mydomain.com
    • Il parametro della password con il valore tryme
    • Il parametro mycheck è deselezionato.
    • Tutti gli altri I parametri <form> come valori predefiniti

    Il parametro di invio del modulo sarà simile al seguente:

    email=nobody@mydomain.com password=tryme not mycheckbox

    L'attributo del metodo Il tag <form> nella pagina web viene utilizzato per decidere se i dati vengono inviati al server utilizzando il metodo GET o il metodo POST.

    Se la Il tag <form> non contiene un attributo del metodo, il modulo viene inviato utilizzando il metodo GET.

  4. Clic Add.

  5. (Facoltativo) Effettua una delle seguenti operazioni:

Modifica della definizione del modulo

È possibile modificare una definizione di modulo esistente se un modulo sul sito web è stato modificato o se è sufficiente modificarla.

Tenere presente che nella pagina Form Submission non è disponibile alcuna funzione per ripristinare le modifiche apportate alla definizione di un modulo.History

Assicurati di ricostruire l'indice del sito in modo che i risultati delle modifiche siano visibili ai clienti.

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Per modificare una definizione di un modulo

  1. Dal menu del prodotto, fai clic su Settings > Crawling > Form Submission.

  2. Nella pagina Form Submission fare clic su Edit a destra di una definizione di modulo che si desidera aggiornare.

  3. Nella pagina Edit Form Definition , imposta le opzioni Form Recognition e Form Submission .

    Vedere la tabella delle opzioni in Aggiunta di definizioni di moduli per l'indicizzazione dei moduli sul sito web.

  4. Clic Save Changes.

  5. (Facoltativo) Effettua una delle seguenti operazioni:

Eliminazione di una definizione di modulo

È possibile eliminare una definizione di modulo esistente se il modulo non esiste più sul sito web o se non si desidera più elaborare e indicizzare un modulo specifico.

Tenere presente che nella pagina Form Submission non è disponibile alcuna funzione per ripristinare le modifiche apportate alla definizione di un modulo.History

Assicurati di ricostruire l'indice del sito in modo che i risultati delle modifiche siano visibili ai clienti.

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Eliminazione di una definizione di modulo

  1. Dal menu del prodotto, fai clic su Settings > Crawling > Form Submission.

  2. Nella pagina Form Submission fare clic su Delete a destra della definizione di un modulo che si desidera rimuovere.

    Assicurarsi di scegliere la definizione corretta del modulo da eliminare. Non è disponibile una finestra di dialogo di conferma dell’eliminazione quando fai clic su Delete nel passaggio successivo.

  3. Nella pagina Delete Form Definition, fai clic su Delete.

  4. (Facoltativo) Effettua una delle seguenti operazioni:

Informazioni sul connettore indice

Utilizza Index Connector per definire origini di input aggiuntive per l’indicizzazione di pagine XML o qualsiasi tipo di feed.

È possibile utilizzare un’origine di input per feed di dati per accedere al contenuto memorizzato in un modulo diverso da quello normalmente rilevato su un sito web utilizzando uno dei metodi di ricerca per indicizzazione disponibili. Ogni documento sottoposto a ricerca per indicizzazione e indicizzato corrisponde direttamente a una pagina di contenuto del sito web. Tuttavia, un feed di dati proviene da un documento XML o da un file di testo delimitato da virgole o da tabulazioni e contiene le informazioni sul contenuto da indicizzare.

Un'origine dati XML è costituita da stanzas XML, o record, che contengono informazioni corrispondenti a singoli documenti. Questi singoli documenti vengono aggiunti all'indice. Un feed di dati di testo contiene singoli record delimitati da nuove righe corrispondenti a singoli documenti. Questi singoli documenti vengono aggiunti anche all'indice. In entrambi i casi, una configurazione del connettore indice descrive come interpretare il feed. Ogni configurazione descrive dove si trova il file e come i server vi accedono. La configurazione descrive anche le informazioni di "mappatura". In altre parole, in che modo gli elementi di ogni record vengono utilizzati per compilare i campi di metadati nell'indice risultante.

Dopo aver aggiunto una definizione del connettore indice alla pagina Staged Index Connector Definitions, è possibile modificare qualsiasi impostazione di configurazione, tranne per i valori Nome o Tipo.

La pagina Index Connector mostra le seguenti informazioni:

  • Nome dei connettori di indice definiti configurati e aggiunti.

  • Uno dei seguenti tipi di origine dati per ciascun connettore aggiunto:

    • Testo : file semplici "flat", delimitati da virgole, delimitati da tabulazioni o altri formati delimitati in modo coerente.
    • Feed - Feed XML.
    • XML - Raccolte di documenti XML.
  • Se il connettore è abilitato o meno per la ricerca per indicizzazione successiva ed è stata eseguita l’indicizzazione.

  • Indirizzo dell'origine dati.

Vedere anche Informazioni sul connettore indice

Come funziona il processo di indicizzazione per le configurazioni di testo e feed nel connettore indice

Passaggio

Processo

Descrizione

1

Scarica l’origine dati.

Per le configurazioni Testo e Feed, si tratta di un semplice download di file.

2

Suddividi l’origine dati scaricata in singoli pseudo-documenti.

Per Testo , ogni riga di testo delimitata da una nuova riga corrisponde a un singolo documento e viene analizzata utilizzando il delimitatore specificato, ad esempio una virgola o una scheda.

Per Feed , i dati di ciascun documento vengono estratti utilizzando un pattern di espressione regolare nel seguente modulo:

<${Itemtag}>(.*?)</${Itemtag}>

Utilizzando Mappa nella pagina Connettore indice Aggiungi , crea una copia in cache dei dati e quindi crea un elenco di collegamenti per il crawler. I dati vengono memorizzati in una cache locale e compilati con i campi configurati.

I dati analizzati vengono scritti nella cache locale.

Questa cache viene letta in seguito per creare i documenti HTML semplici necessari al crawler. Ad esempio,

<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>

L’elemento <title> viene generato solo quando esiste una mappatura al campo metadati Titolo. Allo stesso modo, l'elemento <body> viene generato solo quando esiste una mappatura al campo dei metadati Body.

Importante: Non è supportato l’assegnazione di valori al tag meta URL predefinito.

Per tutte le altre mappature, i tag <meta> vengono generati per ogni campo contenente i dati presenti nel documento originale.

I campi di ciascun documento vengono aggiunti alla cache. Per ogni documento scritto nella cache, viene generato anche un collegamento come negli esempi seguenti:

<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....

La mappatura della configurazione deve avere un campo identificato come Chiave primaria. Questa mappatura rappresenta la chiave utilizzata quando i dati vengono recuperati dalla cache.

Il crawler riconosce l'indice URL : Prefisso schema , che può quindi accedere ai dati memorizzati nella cache locale.

3

Eseguire la ricerca per indicizzazione del set di documenti memorizzati nella cache.

Indice : I collegamenti vengono aggiunti all’elenco in sospeso del crawler e vengono elaborati nella sequenza di ricerca per indicizzazione normale.

4

Elabora ogni documento.

Il valore chiave di ogni collegamento corrisponde a una voce nella cache, pertanto la ricerca per indicizzazione di ogni collegamento fa sì che i dati del documento vengano recuperati dalla cache. Viene quindi "assemblato" in un'immagine HTML che viene elaborata e aggiunta all'indice.

Funzionamento del processo di indicizzazione per le configurazioni XML nel connettore indice

Il processo di indicizzazione per la configurazione XML è simile al processo per le configurazioni di Testo e Feed con le seguenti modifiche ed eccezioni minori.

Poiché i documenti per le ricerche per indicizzazione XML sono già separati in singoli file, i passaggi 1 e 2 della tabella precedente non si applicano direttamente. Se si specifica un URL nei campi Host Address e File Path della pagina Index Connector Add, questo viene scaricato ed elaborato come un normale documento HTML. Si prevede che il documento di download contenga una raccolta di collegamenti <a href="{url}"..., ciascuno dei quali fa riferimento a un documento XML elaborato. Tali collegamenti sono convertiti nel seguente modulo:

<a href="index:<ic_config_name>?url="{url}">

Ad esempio, se la configurazione dell'Adobe restituiva i seguenti collegamenti:

<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a> 
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>

Nella tabella precedente, il punto 3 non si applica e il punto 4 è completato al momento della ricerca per indicizzazione e indicizzazione.

In alternativa, è possibile combinare i documenti XML con altri documenti scoperti naturalmente attraverso il processo di ricerca per indicizzazione. In questi casi, è possibile utilizzare le regole di riscrittura ( Settings > Rewrite Rules > Crawl List Retrieve URL Rules) per modificare gli URL dei documenti XML per indirizzarli al connettore indice.

Consulta Informazioni sulle regole di recupero URL dell'elenco di ricerca per indicizzazione.

Ad esempio, supponiamo che tu disponga della seguente regola di riscrittura:

RewriteRule (^http.*[.]xml$) index:Adobe?key=$1

Questa regola traduce qualsiasi URL che termina con .xml in un collegamento del connettore indice. Il crawler riconosce e riscrive lo schema URL index:. Il processo di download viene reindirizzato attraverso il server Apache del connettore indice sul server primario. Ogni documento scaricato viene esaminato utilizzando lo stesso pattern di espressione regolare utilizzato con Feed. In questo caso, tuttavia, il documento HTML fabbricato non viene salvato nella cache. Viene invece consegnato direttamente al crawler per l’elaborazione dell’indice.

Come configurare più connettori indice

Puoi definire più configurazioni del connettore indice per qualsiasi account. Le configurazioni vengono aggiunte automaticamente all’elenco a discesa in Settings > Crawl > URL Entrypoints come illustrato nella figura seguente:

Selezionando una configurazione dall’elenco a discesa, il valore viene aggiunto alla fine dell’elenco dei punti di ingresso URL.

NOTA

Le configurazioni disabilitate del connettore indice vengono aggiunte all’elenco a discesa, ma non è possibile selezionarle. Se selezioni una seconda volta la stessa configurazione del connettore indice, questa viene aggiunta alla fine dell'elenco e l'istanza precedente viene eliminata.

Per specificare un punto di ingresso del connettore indice per una ricerca per indicizzazione incrementale, è possibile aggiungere voci utilizzando il seguente formato:

index:<indexconnector_configuration_name>

Il crawler elabora ogni voce aggiunta se si trova nella pagina Connettori indice ed è abilitato.

Nota: Poiché l'URL di ciascun documento è costruito utilizzando il nome di configurazione del connettore indice e la chiave primaria del documento, assicurati di utilizzare lo stesso nome di configurazione del connettore indice durante l'esecuzione degli aggiornamenti incrementali. In questo modo Adobe Search&Promote consente di aggiornare correttamente i documenti indicizzati in precedenza.

Consulta anche Informazioni sui punti di ingresso URL.

Utilizzo di Mappe di installazione quando si aggiunge un connettore indice

Al momento dell'aggiunta di un connettore indice, è possibile utilizzare facoltativamente la funzione Setup Maps per scaricare un esempio dell'origine dati. I dati vengono esaminati per verificare l'idoneità all'indicizzazione.

Se si sceglie il tipo di connettore indice..

La funzione Mappe di installazione...

Testo

Determina il valore del delimitatore provando prima le tabulazioni e poi le barre verticali ( | ) e infine virgole ( , ). Se prima di fare clic su Mappe di installazione hai già specificato un valore di delimitazione, viene utilizzato tale valore.

Lo schema di adattamento ottimale si traduce nella compilazione dei campi Mappa con supposizioni in base ai valori Tag e Campo appropriati. Inoltre, viene visualizzato un campione dei dati analizzati. Assicurati di selezionare Intestazioni nella prima riga se sai che il file include una riga di intestazione. La funzione di configurazione utilizza queste informazioni per identificare meglio le voci di mappa risultanti.

Feed

Scarica l’origine dati ed esegue un’analisi XML semplice.

Gli identificatori XPath risultanti vengono visualizzati nelle righe Tag della tabella Mappa e valori simili nei campi. Queste righe identificano solo i dati disponibili e non generano le definizioni XPath più complesse. Tuttavia, è ancora utile perché descrive i dati XML e identifica i valori degli elementi tag.

Nota: La funzione Mappe di installazione scarica l'intera sorgente XML per eseguire la sua analisi. Se il file è di grandi dimensioni, l'operazione potrebbe scadere.

In caso di esito positivo, questa funzione identifica tutti gli elementi XPath possibili, molti dei quali non sono desiderabili da utilizzare. Esamina le definizioni di mappa risultanti e rimuovi quelle che non sono necessarie o che desideri.

XML

Scarica l’URL di un singolo documento rappresentativo, non l’elenco di collegamenti principale. Questo singolo documento viene analizzato utilizzando lo stesso meccanismo utilizzato con i feed, e i risultati vengono visualizzati.

Prima di fare clic su Aggiungi per salvare la configurazione, assicurati di ripristinare l’URL nel documento dell’elenco dei collegamenti principali.

Importante: La funzione Mappe di installazione potrebbe non funzionare per set di dati XML di grandi dimensioni perché il relativo parser di file tenta di leggere l'intero file in memoria. Di conseguenza, potresti riscontrare una condizione di memoria esaurita. Tuttavia, quando lo stesso documento viene elaborato al momento dell'indicizzazione, non viene letto in memoria. Al contrario, i documenti di grandi dimensioni vengono elaborati "in movimento" e non vengono letti interamente in memoria prima.

Uso dell'anteprima quando si aggiunge un connettore indice

Al momento di aggiungere un connettore indice, è possibile utilizzare facoltativamente la funzione Preview per convalidare i dati, come se li si stesse salvando. Esegue un test sulla configurazione, ma senza salvare la configurazione nell'account. Il test accede all’origine dati configurata. Tuttavia, scrive la cache di download in una posizione temporanea; non è in conflitto con la cartella cache principale utilizzata dal crawler per l’indicizzazione.

Preview elabora solo un predefinito di cinque documenti come controllato da Acct:IndexConnector-Preview-Max-Documents. I documenti visualizzati in anteprima vengono visualizzati nel modulo di origine, in quanto vengono presentati al crawler di indicizzazione. La visualizzazione è simile alla funzione "Visualizza origine" di un browser Web. Puoi navigare nei documenti del set di anteprima utilizzando collegamenti di navigazione standard.

L'anteprima non supporta le configurazioni XML perché tali documenti vengono elaborati direttamente e non scaricati nella cache.

Aggiunta di una definizione del connettore indice

Ogni configurazione del connettore indice definisce un’origine dati e le mappature per collegare gli elementi dati definiti per tale origine ai campi di metadati nell’indice.

Prima che gli effetti della nuova definizione abilitata siano visibili ai clienti, ricostruisci l'indice del sito.

Per aggiungere una definizione del connettore indice

  1. Dal menu del prodotto, fai clic su Settings > Crawling > Index Connector.

  2. Nella pagina Stage Index Connector Definitions, fai clic su Add New Index Connector.

  3. Nella pagina Index Connector Add , imposta le opzioni del connettore desiderate. Le opzioni disponibili dipendono dal Type selezionato.

    Opzione

    Descrizione

    Nome

    Nome univoco della configurazione del connettore indice. È possibile utilizzare caratteri alfanumerici. Sono consentiti anche i caratteri "_" e "-".

    Tipo

    Origine dei dati. Il tipo di origine dati selezionato influisce sulle opzioni risultanti disponibili nella pagina Connettore indice Aggiungi . Puoi scegliere tra le seguenti opzioni:

    • Testo

      File di testo semplici, delimitati da virgole, delimitati da tabulazioni o altri formati delimitati in modo coerente. Ogni riga di testo delimitata da una nuova riga corrisponde a un singolo documento ed è analizzata utilizzando il delimitatore specificato.

      Puoi mappare ogni valore, o colonna, su un campo di metadati, a cui fa riferimento il numero di colonna, a partire da 1 (uno).

    • Feed

      Scarica un documento XML primario contenente più "righe" di informazioni.

    • XML

      Scarica un documento XML primario contenente collegamenti ( <a> ) a singoli documenti XML.

    Tipo di origine dati: Testo

    Abilitato

    Attiva la configurazione per eseguire ricerche per indicizzazione e indicizzazione. Oppure, puoi disattivare la configurazione per impedire la ricerca per indicizzazione e indicizzazione.

    Nota: Le configurazioni del connettore indice disabilitato vengono ignorate se si trovano in un elenco di punti di ingresso.

    Indirizzo host

    Specifica l'indirizzo dell'host del server in cui si trovano i dati.

    Se lo desideri, puoi specificare un percorso URI completo (Uniform Resource Identifier) per il documento dell’origine dati, come negli esempi seguenti:

    https://www.somewhere.com/some_path/some_file.xml

     oppure 

    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.xml

    L’URI viene suddiviso nelle voci appropriate per i campi Indirizzo host, Percorso file, Protocollo e, facoltativamente, Nome utente e Password.

    Specifica l'indirizzo IP o l'indirizzo URL del sistema host in cui viene trovato il file di origine dati.

    Percorso file

    Specifica il percorso del file di testo semplice, delimitato da virgole, delimitato da tabulazioni o in un altro file di formato delimitato in modo coerente.

    Il percorso è relativo alla directory principale dell'indirizzo host.

    Percorso file incrementale

    Specifica il percorso del file di testo semplice, delimitato da virgole, delimitato da tabulazioni o in un altro file di formato delimitato in modo coerente.

    Il percorso è relativo alla directory principale dell'indirizzo host.

    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. Se non viene specificato alcun file, viene invece utilizzato il file elencato in Percorso file.

    Percorso file verticale

    Specifica il percorso del file di testo semplice, delimitato da virgole, delimitato da tabulazioni o di altro file di formato delimitato in modo coerente da essere utilizzato durante un aggiornamento verticale.

    Il percorso è relativo alla directory principale dell'indirizzo host.

    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni di aggiornamento verticale.

    Nota: Questa funzione non è abilitata per impostazione predefinita. Contatta il supporto tecnico per attivare la funzione.

    Elimina percorso file

    Specifica il percorso del file di testo semplice e semplice, contenente un singolo valore di identificatore del documento per riga.

    Il percorso è relativo alla directory principale dell'indirizzo host.

    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. I valori trovati in questo file vengono utilizzati per costruire richieste di "eliminazione" per rimuovere documenti precedentemente indicizzati. I valori in questo file devono corrispondere ai valori trovati nei file Percorso file completo o incrementale, nella colonna identificata come Chiave primaria .

    Nota: Questa funzione non è abilitata per impostazione predefinita. Contatta il supporto tecnico per attivare la funzione.

    Protocollo

    Specifica il protocollo utilizzato per accedere al file. Puoi scegliere tra le seguenti opzioni:

    • HTTP

      Se necessario, è possibile immettere le credenziali di autenticazione appropriate per accedere al server HTTP.

    • HTTPS

      Se necessario, è possibile immettere le credenziali di autenticazione appropriate per accedere al server HTTPS.

    • FTP

      Devi immettere le credenziali di autenticazione appropriate per accedere al server FTP.

    • SFTP

      Devi immettere le credenziali di autenticazione appropriate per accedere al server SFTP.

    • File

    Timeout

    Specifica il timeout, in secondi, per le connessioni FTP, SFTP, HTTP o HTTPS. Questo valore deve essere compreso tra 30 e 300.

    Nuovi tentativi

    Specifica il numero massimo di tentativi per connessioni FTP, SFTP, HTTP o HTTPS non riuscite. Questo valore deve essere compreso tra 0 e 10.

    Un valore pari a zero (0) impedirà i tentativi.

    Codifica

    Specifica il sistema di codifica dei caratteri utilizzato nel file di origine dati specificato.

    Delimitatore

    Specifica il carattere da utilizzare per delineare ogni campo nel file di origine dati specificato.

    La virgola ( , ) è un esempio di delimitatore. La virgola funge da delimitatore di campo che consente di separare i campi dati nel file di origine dati specificato.

    Selezionare la scheda ? per utilizzare il carattere di tabulazione orizzontale come delimitatore.

    Intestazioni nella prima riga

    Indica che la prima riga del file di origine dati contiene solo informazioni di intestazione, non dati.

    Numero minimo di documenti per l'indicizzazione

    Se è impostato su un valore positivo, questo specifica il numero minimo di record previsti nel file scaricato. Se vengono ricevuti meno record, l'operazione di indicizzazione viene interrotta.

    Nota: Questa funzione non è abilitata per impostazione predefinita. Contatta il supporto tecnico per attivare la funzione.

    Nota: Questa funzione viene utilizzata solo durante le operazioni dell'indice completo.

    Mappa

    Specifica le mappature da colonna a metadati utilizzando i numeri di colonna.

    • Colonna

      Specifica un numero di colonna, con la prima colonna pari a 1 (una). Per aggiungere nuove righe della mappa per ogni colonna, in Azione , fai clic su + .

      Non è necessario fare riferimento a ciascuna colonna nell’origine dati. È invece possibile scegliere di saltare i valori.

    • Campo

      Definisce il valore dell'attributo name utilizzato per ciascun tag <meta> generato.

    • Metadati?

      Fa sì che il campo diventi un elenco a discesa dal quale è possibile selezionare campi di metadati definiti per l’account corrente.

      Il valore del campo può essere un campo di metadati non definito, se necessario. Un campo di metadati non definito è talvolta utile per creare contenuti utilizzati da Script di filtro .

      Consultare Informazioni sul filtro degli script .

      Quando il connettore indice elabora documenti XML con più hit su qualsiasi campo mappa, i più valori vengono concatenati in un singolo valore nel documento memorizzato nella cache risultante. Per impostazione predefinita, questi valori vengono combinati utilizzando un delimitatore virgola. Supponiamo tuttavia che il valore corrispondente del campo sia un campo metadati definito. Inoltre, per quel campo è impostato l'attributo Elenchi consentiti . In questo caso, il valore Delimitatori elenco del campo, che è il primo delimitatore definito, viene utilizzato nella concatenazione.

    • Chiave principale?

      Solo una definizione di mappa è identificata come chiave primaria. Questo campo diventa il riferimento univoco presentato quando il documento viene aggiunto all'indice. Questo valore viene utilizzato nell’URL del documento nell’indice.

      I valori Chiave primaria devono essere univoci in tutti i documenti rappresentati dalla configurazione del connettore indice. Eventuali duplicati rilevati verranno ignorati. Se i documenti di origine non contengono un singolo valore univoco da utilizzare come Chiave primaria , ma due o più campi insieme possono formare un identificatore univoco, puoi definire la Chiave primaria combinando più valori Colonna con una barra verticale ("|") che delimitano i valori.

    • Striscia HTML?

      Quando questa opzione è selezionata, tutti i tag HTML trovati nei dati di questo campo vengono rimossi.

    • Azione

      Consente di aggiungere righe alla mappa o rimuovere righe dalla mappa. L'ordine delle righe non è importante.

    Tipo di origine dati: Feed

    Abilitato

    Attiva la configurazione per eseguire ricerche per indicizzazione e indicizzazione. Oppure, puoi disattivare la configurazione per impedire la ricerca per indicizzazione e indicizzazione.

    Nota: Le configurazioni del connettore indice disabilitato vengono ignorate se si trovano in un elenco di punti di ingresso.

    Indirizzo host

    Specifica l'indirizzo IP o l'indirizzo URL del sistema host in cui viene trovato il file di origine dati.

    Percorso file

    Specifica il percorso del documento XML primario contenente più "righe" di informazioni.

    Il percorso è relativo alla directory principale dell'indirizzo host.

    Percorso file incrementale

    Specifica il percorso del documento XML incrementale contenente più "righe" di informazioni.

    Il percorso è relativo alla directory principale dell'indirizzo host.

    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. Se non viene specificato alcun file, viene invece utilizzato il file elencato in Percorso file.

    Percorso file verticale

    Specifica il percorso del documento XML contenente più "righe" di informazioni sparse da utilizzare durante un aggiornamento verticale.

    Il percorso è relativo alla directory principale dell'indirizzo host.

    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni di aggiornamento verticale.

    Nota: Questa funzione non è abilitata per impostazione predefinita. Contatta il supporto tecnico per attivare la funzione.

    Elimina percorso file

    Specifica il percorso del file di testo semplice e semplice, contenente un singolo valore di identificatore del documento per riga.

    Il percorso è relativo alla directory principale dell'indirizzo host.

    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. I valori trovati in questo file vengono utilizzati per costruire richieste di "eliminazione" per rimuovere documenti precedentemente indicizzati. I valori in questo file devono corrispondere ai valori trovati nei file Percorso file completo o incrementale, nella colonna identificata come Chiave primaria .

    Nota: Questa funzione non è abilitata per impostazione predefinita. Contatta il supporto tecnico per attivare la funzione.

    Protocollo

    Specifica il protocollo utilizzato per accedere al file. Puoi scegliere tra le seguenti opzioni:

    • HTTP

      Se necessario, è possibile immettere le credenziali di autenticazione appropriate per accedere al server HTTP.

    • HTTPS

      Se necessario, è possibile immettere le credenziali di autenticazione appropriate per accedere al server HTTPS.

    • FTP

      Devi immettere le credenziali di autenticazione appropriate per accedere al server FTP.

    • SFTP

      Devi immettere le credenziali di autenticazione appropriate per accedere al server SFTP.

    • File

    Elemento

    Identifica l'elemento XML che è possibile utilizzare per identificare singole righe XML nel file di origine dati specificato.

    Ad esempio, nel seguente frammento Feed di un documento XML di Adobe, il valore del tag elemento è record :

    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"><metadata> <meta name="mp_mkt" content="1"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_air.png?lang=it"/> <meta name="title" content="Adobe AIR Marketplace"/> <meta name="description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_photoshop.png?lang=it"/> <meta name="title" content="Adobe Photoshop Marketplace"/> <meta name="description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>

    Numero minimo di documenti per l'indicizzazione

    Se è impostato su un valore positivo, questo specifica il numero minimo di record previsti nel file scaricato. Se vengono ricevuti meno record, l'operazione di indicizzazione viene interrotta.

    Nota: Questa funzione non è abilitata per impostazione predefinita. Contatta il supporto tecnico per attivare la funzione.

    Nota: Questa funzione viene utilizzata solo durante le operazioni dell'indice completo.

    Mappa

    Consente di specificare le mappature XML da elemento a metadati utilizzando le espressioni XPath.

    • Tag

      Specifica una rappresentazione XPath dei dati XML analizzati. Utilizzando l'esempio di documento XML di Adobe sopra, sotto l'opzione Tag elemento, può essere mappato utilizzando la seguente sintassi:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      La sintassi di cui sopra si traduce come segue:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        L'attributo displayurl del record viene mappato sul campo metadati page-url .

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        L'attributo content di qualsiasi elemento meta contenuto all'interno di un elemento metadati contenuto all'interno di un elemento record , il cui attributo name è titolo , viene mappato sul campo metadati titolo

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        L'attributo content di qualsiasi elemento meta contenuto all'interno di un elemento metadati contenuto all'interno del record , il cui attributo name è descrizione , è mappato al campo metadati desc

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        L'attributo content di qualsiasi elemento meta contenuto all'interno di un elemento metadati contenuto nel record , il cui attributo name è descrizione , viene mappato sul campo metadati corpo

      XPath è una notazione relativamente complicata. Ulteriori informazioni sono disponibili nel seguente percorso:

      Vedere https://www.w3schools.com/xpath/

    • Campo

      Definisce il valore dell'attributo name utilizzato per ciascun tag <meta> generato.

    • Metadati?

      Fa sì che il campo diventi un elenco a discesa dal quale è possibile selezionare campi di metadati definiti per l’account corrente.

      Il valore del campo può essere un campo di metadati non definito, se necessario. Un campo di metadati non definito è talvolta utile per creare contenuti utilizzati da Script di filtro .

      Consultare Informazioni sul filtro degli script .

      Quando il connettore indice elabora documenti XML con più hit su qualsiasi campo mappa, i più valori vengono concatenati in un singolo valore nel documento memorizzato nella cache risultante. Per impostazione predefinita, questi valori vengono combinati utilizzando un delimitatore virgola. Supponiamo tuttavia che il valore corrispondente del campo sia un campo metadati definito. Inoltre, per quel campo è impostato l'attributo Elenchi consentiti . In questo caso, il valore Delimitatori elenco del campo, che è il primo delimitatore definito, viene utilizzato nella concatenazione.

    • Chiave principale?

      Solo una definizione di mappa è identificata come chiave primaria. Questo campo diventa il riferimento univoco presentato quando il documento viene aggiunto all'indice. Questo valore viene utilizzato nell’URL del documento nell’indice.

      I valori Chiave primaria devono essere univoci in tutti i documenti rappresentati dalla configurazione del connettore indice. Eventuali duplicati rilevati verranno ignorati. Se i documenti di origine non contengono un singolo valore univoco da utilizzare come Chiave primaria , ma due o più campi insieme possono formare un identificatore univoco, puoi definire la Chiave primaria combinando più definizioni Tag con una barra verticale ("|") che delimitano i valori.

    • Striscia HTML?

      Quando questa opzione è selezionata, tutti i tag HTML trovati nei dati di questo campo vengono rimossi.

    • Utilizzare per eliminare?

      Utilizzato solo durante le operazioni dell'indice incrementale. I record che corrispondono a questo modello XPath identificano gli elementi da eliminare. Il valore Chiave primaria per ogni record di questo tipo viene utilizzato per costruire richieste di "cancellazione", come con Elimina percorso file.

      Nota: Questa funzione non è abilitata per impostazione predefinita. Contatta il supporto tecnico per attivare la funzione.

    • Azione

      Consente di aggiungere righe alla mappa o rimuovere righe dalla mappa. L'ordine delle righe non è importante.

    Tipo di origine dati: XML

    Abilitato

    Attiva la configurazione per eseguire ricerche per indicizzazione e indicizzazione. Oppure, puoi disattivare la configurazione per impedire la ricerca per indicizzazione e indicizzazione.

    Nota: Le configurazioni del connettore indice disabilitato vengono ignorate se si trovano in un elenco di punti di ingresso.

    Indirizzo host

    Specifica l'indirizzo URL del sistema host in cui viene trovato il file di origine dati.

    Percorso file

    Specifica il percorso del documento XML principale contenente i collegamenti ( <a> ) a singoli documenti XML.

    Il percorso è relativo alla directory principale dell'indirizzo host.

    Protocollo

    Specifica il protocollo utilizzato per accedere al file. Puoi scegliere tra le seguenti opzioni:

    • HTTP

      Se necessario, è possibile immettere le credenziali di autenticazione appropriate per accedere al server HTTP.

    • HTTPS

      Se necessario, è possibile immettere le credenziali di autenticazione appropriate per accedere al server HTTPS.

    • FTP

      Devi immettere le credenziali di autenticazione appropriate per accedere al server FTP.

    • SFTP

      Devi immettere le credenziali di autenticazione appropriate per accedere al server SFTP.

    • File

    Nota: L'impostazione Protocol viene utilizzata solo quando sono presenti informazioni specificate nei campi Indirizzo host e/o Percorso file . I singoli documenti XML vengono scaricati tramite HTTP o HTTPS, in base alle relative specifiche URL.

    Elemento

    Identifica l'elemento XML che definisce una "riga" nel file di origine dati specificato.

    Mappa

    Consente di specificare le mappature da colonna a metadati utilizzando i numeri di colonna.

    • Tag

      Specifica una rappresentazione XPath dei dati XML analizzati. Utilizzando l’esempio di documento XML di Adobe riportato sopra, sotto l’opzione Tag elemento, è possibile mapparlo utilizzando la seguente sintassi:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      La sintassi di cui sopra si traduce come segue:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        L'attributo displayurl del record viene mappato sul campo metadati page-url .

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        L'attributo content di qualsiasi elemento meta contenuto all'interno di un elemento metadati contenuto all'interno di un elemento record , il cui attributo name è titolo , viene mappato sul campo metadati titolo

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        L'attributo content di qualsiasi elemento meta contenuto all'interno di un elemento metadati contenuto all'interno del record , il cui attributo name è descrizione , è mappato al campo metadati desc

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        L'attributo content di qualsiasi elemento meta contenuto all'interno di un elemento metadati contenuto nel record , il cui attributo name è descrizione , viene mappato sul campo metadati corpo

      XPath è una notazione relativamente complicata. Ulteriori informazioni sono disponibili nel seguente percorso:

      Vedere https://www.w3schools.com/xpath/

    • Campo

      Definisce il valore dell'attributo name utilizzato per ciascun tag <meta> generato.

    • Metadati?

      Fa sì che il campo diventi un elenco a discesa dal quale è possibile selezionare campi di metadati definiti per l’account corrente.

      Il valore del campo può essere un campo di metadati non definito, se necessario. Un campo di metadati non definito è talvolta utile per creare contenuti utilizzati da Script di filtro .

      Consultare Informazioni sul filtro degli script .

      Quando il connettore indice elabora documenti XML con più hit su qualsiasi campo mappa, i più valori vengono concatenati in un singolo valore nel documento memorizzato nella cache risultante. Per impostazione predefinita, questi valori vengono combinati utilizzando un delimitatore virgola. Supponiamo tuttavia che il valore corrispondente del campo sia un campo metadati definito. Inoltre, per quel campo è impostato l'attributo Elenchi consentiti . In questo caso, il valore Delimitatori elenco del campo, che è il primo delimitatore definito, viene utilizzato nella concatenazione.

    • Chiave principale?

      Solo una definizione di mappa è identificata come chiave primaria. Questo campo diventa il riferimento univoco presentato quando il documento viene aggiunto all'indice. Questo valore viene utilizzato nell’URL del documento nell’indice.

      I valori Chiave primaria devono essere univoci in tutti i documenti rappresentati dalla configurazione del connettore indice. Eventuali duplicati rilevati verranno ignorati. Se i documenti di origine non contengono un singolo valore univoco da utilizzare come Chiave primaria , ma due o più campi insieme possono formare un identificatore univoco, puoi definire la Chiave primaria combinando più definizioni Tag con una barra verticale ("|") che delimitano i valori.

    • Striscia HTML?

      Quando questa opzione è selezionata, tutti i tag HTML trovati nei dati di questo campo vengono rimossi.

    • Azione

      Consente di aggiungere righe alla mappa o rimuovere righe dalla mappa. L'ordine delle righe non è importante.

  4. (Facoltativo) Fai clic su Setup Maps per scaricare un esempio dell’origine dati. I dati vengono esaminati per verificare l'idoneità all'indicizzazione. Questa funzione è disponibile solo per i tipi di testo e feed.

  5. (Facoltativo) Fai clic su Preview per verificare il funzionamento effettivo della configurazione. Questa funzione è disponibile solo per i tipi di testo e feed.

  6. Fai clic su Add per aggiungere la configurazione alla pagina Index Connector Definitions e all’elenco a discesa Index Connector Configurations nella pagina URL Entrypoints.

    Consulta Informazioni sui punti di ingresso URL.

  7. Nella pagina Index Connector Definitions, fai clic su rebuild your staged site index.

  8. (Facoltativo) Nella pagina Index Connector Definitions , effettua una delle seguenti operazioni:

Modifica della definizione del connettore indice

Puoi modificare un connettore indice esistente definito.

NOTA

Non tutte le opzioni sono disponibili per la modifica, ad esempio Nome connettore indice o Tipo dall'elenco a discesa Type.

Per modificare una definizione del connettore indice

  1. Dal menu del prodotto, fai clic su Settings > Crawling > Index Connector.

  2. Nella pagina Index Connector, sotto l'intestazione della colonna Actions, fare clic su Edit per il nome di una definizione del connettore indice di cui si desidera modificare le impostazioni.

  3. Nella pagina Index Connector Edit , imposta le opzioni desiderate.

    Vedi la tabella delle opzioni in Aggiunta di una definizione del connettore indice.

  4. Clic Save Changes.

  5. (Facoltativo) Nella pagina Index Connector Definitions, fai clic su rebuild your staged site index.

  6. (Facoltativo) Nella pagina Index Connector Definitions , effettua una delle seguenti operazioni:

Visualizzazione delle impostazioni di una definizione del connettore indice

Puoi controllare le impostazioni di configurazione di una definizione di connettore indice esistente.

Dopo aver aggiunto una definizione del connettore indice alla pagina Index Connector Definitions, non è possibile modificarne l'impostazione Tipo. È invece necessario eliminare la definizione e aggiungerne una nuova.

Per visualizzare le impostazioni di una definizione del connettore indice

  1. Dal menu del prodotto, fai clic su Settings > Crawling > Index Connector.
  2. Nella pagina Index Connector, sotto l'intestazione della colonna Actions, fare clic su Edit per il nome di una definizione del connettore indice di cui si desidera esaminare o modificare le impostazioni.

Copia della definizione di un connettore indice

È possibile copiare una definizione del connettore indice esistente da utilizzare come base per un nuovo connettore indice che si desidera creare.

Quando copi una definizione del connettore indice, la definizione copiata viene disabilitata per impostazione predefinita. Per abilitare o "attivare" la definizione, è necessario modificarla dalla pagina Index Connector Edit e selezionare Enable.

Vedere Modifica della definizione di un connettore indice.

Per copiare una definizione del connettore indice

  1. Dal menu del prodotto, fai clic su Settings > Crawling > Index Connector.

  2. Nella pagina Index Connector, sotto l'intestazione della colonna Actions, fare clic su Copy per il nome di una definizione del connettore indice di cui si desidera duplicare le impostazioni.

  3. Nella pagina Index Connector Copy , immetti il nuovo nome della definizione.

  4. Clic Copy.

  5. (Facoltativo) Nella pagina Index Connector Definitions , effettua una delle seguenti operazioni:

Ridenominazione della definizione del connettore indice

È possibile modificare il nome di una definizione del connettore indice esistente.

Dopo aver rinominato la definizione, seleziona Settings > Crawling > URL Entrypoints. Assicurati che il nuovo nome della definizione sia riportato nell'elenco a discesa della pagina URL Entrypoints.

Consulta Aggiunta di più punti di ingresso URL da indicizzare.

Per rinominare una definizione del connettore indice

  1. Dal menu del prodotto, fai clic su Settings > Crawling > Index Connector.

  2. Nella pagina Index Connector, sotto l'intestazione della colonna Actions, fare clic su Rename per il nome della definizione del connettore indice che si desidera modificare.

  3. Nella pagina Index Connector Rename , immetti il nuovo nome della definizione nel campo Name .

  4. Clic Rename.

  5. Fai clic su Settings > Crawling > URL Entrypoints. Se nell'elenco è presente il nome del connettore indice precedente, rimuoverlo e aggiungere la voce appena rinominata.

    Consulta Aggiunta di più punti di ingresso URL da indicizzare. 1. (Facoltativo) Nella pagina Index Connector Definitions , effettua una delle seguenti operazioni:

Eliminazione di una definizione del connettore indice

È possibile eliminare una definizione del connettore indice esistente che non è più necessaria o utilizzata.

Per eliminare una definizione del connettore indice

  1. Dal menu del prodotto, fai clic su Settings > Crawling > Index Connector.
  2. Nella pagina Index Connector Definitions, sotto l'intestazione di colonna Actions, fare clic su Delete per il nome di definizione del connettore indice che si desidera rimuovere.
  3. Nella pagina Index Connector Delete, fai clic su Delete.

In questa pagina

Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now
Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now