Informazioni sul menu di ricerca per indicizzazione

Utilizzare la data e le maschere URL del set di menu di ricerca per indicizzazione, le password, i tipi di contenuto, le connessioni, le definizioni dei moduli e i punti di ingresso URL.

Informazioni sui punti di ingresso URL

La maggior parte dei siti Web ha un punto di ingresso principale o una home page che il cliente visita inizialmente. Questo punto di ingresso principale è l'indirizzo URL dal quale il robot di ricerca inizia la ricerca per indicizzazione. Tuttavia, se il sito Web contiene più domini o sottodomini oppure se parti del sito non sono collegate dal punto di ingresso principale, potete utilizzare i punti di ingresso URL per aggiungere altri punti di ingresso.

Vengono indicizzate tutte le pagine del sito Web al di sotto di ciascun punto di ingresso URL specificato. Potete combinare punti di immissione URL con maschere per controllare esattamente quali porzioni di un sito Web volete indicizzare. È necessario rigenerare l’indice del sito Web prima che gli effetti delle impostazioni dei punti di accesso URL siano visibili ai clienti.

Il punto di ingresso principale è in genere l’URL del sito Web che si desidera indicizzare e cercare. Questo punto di ingresso principale viene configurato in Impostazioni account.

Consultate Configurazione delle impostazioni dell'account.

Dopo aver specificato il punto di ingresso dell’URL principale, potete specificare facoltativamente altri punti di ingresso che desiderate spostare per indicizzazione in ordine. Nella maggior parte dei casi si specificano punti di ingresso aggiuntivi per le pagine Web che non sono collegate da pagine sotto il punto di ingresso principale. Specificate punti di ingresso aggiuntivi quando il sito Web si estende su più domini, come nell’esempio seguente:

https://www.domain.com/

https://www.domain.com/not_linked/but_search_me_too/

https://more.domain.com/

È possibile assegnare a ciascun punto di ingresso una o più delle seguenti parole chiave separate da spazi nella tabella seguente. Queste parole chiave influiscono sulla modalità di indicizzazione della pagina.

Importante: Assicurarsi di separare una determinata parola chiave dal punto di ingresso e l'una dall'altra tramite uno spazio; una virgola non è un separatore valido.

Parola chiave

Descrizione

noindex

Se non si desidera indicizzare il testo nella pagina del punto di ingresso, ma si desidera seguire i collegamenti della pagina, aggiungere noindex dopo il punto di ingresso.

Separate la parola chiave dal punto di ingresso con uno spazio come nell'esempio seguente:

https://www.my-additional-domain.com/more_pages/main.html noindex

Questa parola chiave equivale a un tag meta robot con content="noindex" ) tra <head> ... </head> tag della pagina del punto di ingresso.

nofollow

Se si desidera indicizzare il testo nella pagina del punto di ingresso ma non si desidera seguire i collegamenti della pagina, aggiungere nofollow dopo il punto di ingresso.

Separate la parola chiave dal punto di ingresso con uno spazio come nell'esempio seguente:

https://www.domain.com/not_linked/directory_listing&nbsp;nofollow

Questa parola chiave equivale a un tag meta robot con content="nofollow" tra <head> ... Tag </head> di una pagina punto di ingresso.

form

Quando il punto di ingresso è una pagina di login, form viene in genere utilizzato in modo che il robot di ricerca possa inviare il modulo di login e ricevere i cookie appropriati prima di eseguire il crawling del sito Web. Quando si utilizza la parola chiave "form", la pagina del punto di ingresso non viene indicizzata e il robot di ricerca non contrassegna la pagina del punto di ingresso come sottoposta a ricerca per indicizzazione. Use nofollow se non si desidera che il robot di ricerca segua i collegamenti della pagina.

Vedere anche Informazioni sui tipi di contenuto.

Vedere anche Informazioni sul connettore indice.

Aggiunta di più punti di ingresso URL da indicizzare

Se il sito Web contiene più domini o sottodomini e desiderate che vengano sottoposti a ricerca per indicizzazione, potete utilizzare i punti di ingresso URL per aggiungere altri URL.

Per impostare il punto di accesso dell'URL principale del sito Web, utilizzate le Impostazioni account.

Consultate Configurazione delle impostazioni dell'account.

Per aggiungere più punti di ingresso URL da indicizzare

  1. Scegliere Settings > Crawling > URL Entrypoints dal menu del prodotto.

  2. Nella pagina URL Entrypoints, nel campo Entrypoints immettere un indirizzo URL per riga.

  3. (Facoltativo) Nell'elenco a discesa Add Index Connector Configurations, selezionare un connettore indice da aggiungere come punto di ingresso per l'indicizzazione.

    L'elenco a discesa è disponibile solo se in precedenza sono state aggiunte una o più definizioni di connettore indice.

    Vedere Aggiunta di una definizione del connettore indice.

  4. Clic Save Changes.

  5. (Facoltativo) Effettuate una delle seguenti operazioni:

Le maschere URL

Le maschere URL sono modelli che determinano quale dei vostri siti Web documenta gli indici dei robot di ricerca o meno.

Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Di seguito sono riportati due tipi di maschere URL utilizzabili:

  • Includi maschere URL
  • Escludere le maschere URL

L'inclusione di maschere URL indica al robot di ricerca di indicizzare qualsiasi documento che corrisponda al pattern della maschera.

Le maschere URL di esclusione indicano al robot di ricerca di indicizzare i documenti corrispondenti.

Mentre il robot di ricerca viaggia da un collegamento a un collegamento attraverso il sito Web, incontra gli URL e cerca le maschere che corrispondono a tali URL. La prima corrispondenza determina se includere o escludere tale URL dall’indice. Se nessuna maschera corrisponde a un URL rilevato, tale URL viene eliminato dall'indice.

Includi maschere URL per gli URL del punto di ingresso vengono generati automaticamente. In questo modo tutti i documenti presenti sul sito Web verranno indicizzati. Comodamente si elimina anche con i link che "lasciano" il tuo sito web. Ad esempio, se una pagina indicizzata si collega a https://www.yahoo.com, il robot di ricerca non indicizza tale URL perché non corrisponde alla maschera di inclusione generata automaticamente dall’URL del punto di ingresso.

Ogni maschera URL specificata deve trovarsi su una riga separata.

La maschera può specificare una delle seguenti opzioni:

  • Un percorso completo come in https://www.mydomain.com/products.html.

  • Un percorso parziale come in https://www.mydomain.com/products.

  • URL che utilizza caratteri jolly come in https://www.mydomain.com/*.html.

  • Un'espressione regolare (per utenti avanzati).

    Per rendere una maschera un'espressione regolare, inserite la parola chiave regexp tra il tipo di maschera ( exclude o include) e la maschera URL.

Di seguito è riportato un semplice esempio di maschera di esclusione URL:

exclude https://www.mydomain.com/photos

Poiché questo esempio è una maschera URL di esclusione, qualsiasi documento che corrisponda al pattern non viene indicizzato. Il pattern corrisponde a qualsiasi elemento rilevato, sia file che cartelle, in modo che https://www.mydomain.com/photos.html e https://www.mydomain.com/photos/index.html, entrambi corrispondenti all'URL di esclusione, non siano indicizzati. Per far corrispondere solo i file presenti nella cartella /photos/, la maschera URL deve contenere una barra finale, come nell'esempio seguente:

exclude https://www.mydomain.com/photos/

L'esempio di maschera di esclusione seguente utilizza una carattere jolly. Indica al robot di ricerca di ignorare i file con l'estensione ".pdf". Il robot di ricerca non aggiunge questi file all'indice.

exclude *.pdf

Una semplice maschera URL include è la seguente:

include https://www.mydomain.com/news/

Vengono indicizzati solo i documenti collegati tramite una serie di collegamenti da un punto di ingresso dell’URL o utilizzati come punto di ingresso dell’URL. L'elenco esclusivo dell'URL di un documento come maschera URL inclusa non indicizza alcun documento non collegato. Per aggiungere documenti non collegati all’indice, potete usare la funzione Punti di ingresso URL.

Consultate Informazioni sui punti di ingresso URL.

L’inclusione di maschere e l’esclusione di maschere possono funzionare insieme. Potete escludere un’ampia parte del sito Web dall’indicizzazione creando una maschera URL esclusa e tuttavia includendo una o più delle pagine escluse con una maschera URL inclusa. Ad esempio, supponete che l’URL del punto di ingresso sia il seguente:

https://www.mydomain.com/photos/

Il robot di ricerca ricerca si sposta per indicizzazione e indicizza tutte le pagine in /photos/summer/, /photos/spring/ e /photos/fall/ (supponendo che siano presenti collegamenti ad almeno una pagina in ciascuna directory dalla cartella photos). Questo comportamento si verifica perché i percorsi di collegamento consentono al robot di ricerca di trovare i documenti nelle cartelle /summer/, /spring/ e /fall/ e gli URL delle cartelle corrispondono alla maschera di inclusione generata automaticamente dall'URL del punto di ingresso.

Potete scegliere di escludere tutte le pagine della cartella /fall/ con una maschera URL di esclusione, come nell'esempio seguente:

exclude https://www.mydomain.com/photos/fall/

Oppure, includete solo /photos/fall/redleaves4.html come parte dell'indice con la seguente maschera URL:

include https://www.mydomain.com/photos/fall/redleaves4.html

Affinché i due esempi di maschera di cui sopra funzionino come previsto, la maschera di inclusione è elencata per prima, come illustrato di seguito:

include https://www.mydomain.com/photos/fall/redleaves4.html 
exclude https://www.mydomain.com/photos/fall/

Poiché il robot di ricerca segue le indicazioni nell'ordine in cui sono elencate, il robot di ricerca prima include /photos/fall/redleaves4.html, quindi esclude gli altri file nella cartella /fall.

Se le istruzioni sono specificate nel modo opposto come indicato di seguito:

exclude https://www.mydomain.com/photos/fall/ 
include https://www.mydomain.com/photos/fall/redleaves4.html

/photos/fall/redleaves4.html non è incluso, anche se la maschera specifica che è incluso.

Una maschera URL che viene visualizzata per prima ha sempre la precedenza su una maschera URL che viene visualizzata successivamente nelle impostazioni della maschera. Inoltre, se il robot di ricerca rileva una pagina che corrisponde a una maschera URL di inclusione e a una maschera URL di esclusione, la maschera elencata per prima ha sempre la precedenza.

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Utilizzo di parole chiave con maschere URL

È possibile qualificare ciascuna maschera con una o più parole chiave separate da spazi, che influiscono sulla modalità di indicizzazione delle pagine corrispondenti.

Una virgola non è valida come separatore tra la maschera e la parola chiave; potete usare solo degli spazi.

Parola chiave

Descrizione

noindex

Se non si desidera indicizzare il testo sulle pagine che corrispondono alla maschera URL, ma si desidera seguire i collegamenti alle pagine corrispondenti, aggiungere noindex dopo la maschera URL di inclusione. Separate la parola chiave dalla maschera con uno spazio, come nell’esempio di seguito:

include&nbsp;*.swf&nbsp;noindex

L'esempio precedente specifica che il robot di ricerca segue tutti i collegamenti da file con Estensione .swf , ma disattiva l'indicizzazione di tutto il testo contenuto in tali file.

Il La parola chiave noindex equivale a un tag meta robot con content="noindex" tra <head>...</head> tag di pagine corrispondenti.

nofollow

Se desiderate indicizzare il testo sulle pagine che corrispondono alla maschera URL, ma non desiderate seguire i collegamenti della pagina corrispondente, aggiungete nofollow dopo la maschera URL di inclusione. Separate la parola chiave dalla maschera con uno spazio, come nell’esempio di seguito:

include&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

Il La parola chiave nofollow equivale a un tag meta robot con content="nofollow" tra <head>...</head> tag di pagine corrispondenti.

regexp

Utilizzata sia per includere che per escludere le maschere.

Qualsiasi maschera URL preceduta da regexp viene trattata come un'espressione regolare. Se il robot di ricerca rileva documenti che corrispondono a una maschera URL con espressione regolare esclusa, tali documenti non vengono indicizzati. Se il robot di ricerca rileva documenti che corrispondono a una maschera URL con espressione regolare, tali documenti vengono indicizzati. Ad esempio, supponete di disporre della seguente maschera URL:

exclude&nbsp;regexp&nbsp;^.*/products/.*\.html$

Il robot di ricerca esclude i file corrispondenti, come https://www.mydomain.com/products/page1.html

Se avevi la seguente maschera URL con espressione regolare esclusa:

exclude&nbsp;regexp&nbsp;^.*\?..*$

Il robot di ricerca non deve includere alcun URL contenente un parametro CGI come https://www.mydomain.com/cgi/prog/?arg1=val1&arg2=val2 .

Se avete avuto i seguenti elementi includere una maschera URL con espressione regolare:

include&nbsp;regexp&nbsp;^.*\.swf$&nbsp;noindex

Il robot di ricerca segue tutti i collegamenti da file con l'estensione ".swf". Il La parola chiave noindex specifica inoltre che il testo dei file corrispondenti non è indicizzato.

Vedere Espressioni regolari .

Aggiunta di maschere URL per indicizzare o non indicizzare parti del sito Web

È possibile utilizzare URL Masks per definire quali parti del sito Web si desidera includere o meno nella ricerca per indicizzazione.

Utilizzate il campo Test URL Mask (Prova maschere URL) per verificare se un documento è incluso o meno dopo l'indicizzazione.

Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Per aggiungere maschere URL per indicizzare o non indicizzare parti del sito Web

  1. Scegliere Settings > Crawling > URL Masks dal menu del prodotto.

  2. (Facoltativo) Nella pagina URL Masks, nel campo Test URL Masks, immettere una maschera URL di prova dal sito Web, quindi fare clic su Test.

  3. Nel campo URL Masks, digitate include (per aggiungere un sito Web che si desidera sottoporre a ricerca per indicizzazione) oppure exclude (per impedire che un sito Web venga sottoposto a ricerca per indicizzazione e indicizzazione), seguito dall’indirizzo della maschera URL.

    Immettete un indirizzo maschera URL per riga. Esempio:

    include https://www.mycompany.com/summer 
    include https://www.mycompany.com/spring 
    exclude regexp .*\.xml 
    exclude https://www.mycompany.com/fall
    
  4. Clic Save Changes.

  5. (Facoltativo) Effettuate una delle seguenti operazioni:

Informazioni sulle maschere di data

Potete utilizzare le maschere data per includere o escludere i file dai risultati di ricerca in base alla pagina del file.

Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Di seguito sono riportati due tipi di maschere data utilizzabili:

  • Includi maschere data ("includi giorni" e "includi data")

    Includi file di indice delle maschere di data con data corrispondente o precedente alla data specificata.

  • Escludere le maschere di data ("giorni di esclusione" e "data di esclusione")

    Escludere i file di indice delle maschere di data con data precedente o alla data specificata.

Per impostazione predefinita, la data del file è determinata dalle informazioni del tag meta. Se non viene trovato alcun tag Meta, la data di un file viene determinata dall’intestazione HTTP ricevuta dal server quando il robot di ricerca scarica un file.

Ogni maschera data specificata deve trovarsi su una riga separata.

La maschera può specificare una delle seguenti opzioni:

  • Un percorso completo come in https://www.mydomain.com/products.html
  • Un percorso parziale come in https://www.mydomain.com/products
  • Un URL che utilizza caratteri jolly https://www.mydomain.com/*.html
  • Un'espressione regolare. Per rendere una maschera un'espressione regolare, inserite la parola chiave regexp prima dell'URL.

Entrambe le maschere di data includono ed escludono può specificare una data in uno dei due modi seguenti. Le maschere vengono applicate solo se i file corrispondenti sono stati creati alla data specificata o prima di essa:

  1. Numero di giorni. Ad esempio, supponiamo che la maschera data sia la seguente:

    exclude-days 30 https://www.mydomain.com/docs/archive/)
    

    Il numero di giorni specificati viene conteggiato di nuovo. Se il file è datato in data o prima della data di arrivo, la maschera viene applicata.

  2. Una data effettiva che utilizza il formato AAAA-MM-GG. Ad esempio, supponiamo che la maschera data sia la seguente:

    include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
    

    Se il documento corrispondente è datato alla data specificata o prima di essa, viene applicata la maschera data.

Di seguito è riportato un semplice esempio di maschera per date di esclusione:

exclude-days 90 https://www.mydomain.com/docs/archive

Poiché si tratta di una maschera data di esclusione, qualsiasi file che corrisponda al pattern non viene indicizzato ed ha 90 giorni o meno. Quando si esclude un documento, il testo non viene indicizzato e non vengono seguiti collegamenti da tale file. Il file viene effettivamente ignorato. In questo esempio, sia i file che le cartelle potrebbero corrispondere al pattern URL specificato. Tenere presente che sia https://www.mydomain.com/docs/archive.html che https://www.mydomain.com/docs/archive/index.html corrispondono al pattern e non sono indicizzati se hanno 90 giorni di età o meno. Per far corrispondere solo i file presenti nella cartella /docs/archive/, la maschera data deve contenere una barra finale, come illustrato di seguito:

exclude-days 90 https://www.mydomain.com/docs/archive/

Le maschere data possono essere utilizzate anche con caratteri jolly. La seguente maschera di esclusione indica al robot di ricerca di ignorare i file con estensione ".pdf" che sono datati il o prima del 2011-02-15. Il robot di ricerca non aggiunge nessun file corrispondente all'indice.

exclude-date 2011-02-15 *.pdf

Includi maschera data ha un aspetto simile, all'indice vengono aggiunti solo i file corrispondenti. L'esempio seguente include maschera data indica al robot di ricerca di indicizzare il testo da qualsiasi file che abbiano zero giorni di età o meno nell'area /docs/archive/manual/ del sito Web.

include-days 0 https://www.mydomain.com/docs/archive/manual/

L’inclusione di maschere e l’esclusione di maschere possono funzionare insieme. Ad esempio, potete escludere un’ampia porzione del sito Web dall’indicizzazione creando una maschera per date di esclusione, ma includendo una o più di quelle pagine escluse con una maschera URL di inclusione. Se l’URL di ingresso è il seguente:

https://www.mydomain.com/archive/

Il robot di ricerca si sposta per indicizzazione e indicizza tutte le pagine in /archive/summer/, /archive/spring/ e /archive/fall/ (supponendo che siano presenti collegamenti ad almeno una pagina in ciascuna cartella dalla cartella archive). Questo comportamento si verifica perché i percorsi di collegamento consentono al robot di ricerca di "trovare" i file nelle cartelle /summer/, /spring/ e /fall/ e gli URL delle cartelle corrispondono alla maschera di inclusione generata automaticamente dall'URL del punto di ingresso.

Consultate Informazioni sui punti di ingresso URL.

Consultate Configurazione delle impostazioni dell'account.

Potete scegliere di escludere tutte le pagine con più di 90 giorni nella cartella /fall/ con una maschera data di esclusione come illustrato di seguito:

exclude-days 90 https://www.mydomain.com/archive/fall/

È possibile includere selettivamente solo /archive/fall/index.html (indipendentemente dall'età, ovvero dalla corrispondenza tra file di 0 giorni o versioni precedenti) come parte dell'indice con la seguente maschera data:

include-days 0 https://www.mydomain.com/archive/fall/index.html

Affinché i due esempi di maschera di cui sopra funzionino come previsto, è necessario elencare prima la maschera di inclusione, come illustrato di seguito:

include-days 0 https://www.mydomain.com/archive/fall/index.html 
exclude-days 90 https://www.mydomain.com/archive/fall/

Poiché il robot di ricerca segue le indicazioni nell'ordine in cui sono specificate, il robot di ricerca prima include /archive/fall/index.html, e poi esclude gli altri file nella cartella /fall.

Se le istruzioni sono specificate nel modo opposto come indicato di seguito:

exclude-days 90 https://www.mydomain.com/archive/fall/ 
include-days 0 https://www.mydomain.com/archive/fall/index.html 

Quindi /archive/fall/index.html non è incluso, anche se la maschera specifica che dovrebbe essere. Una maschera data che compare per prima ha sempre la precedenza su una maschera data che potrebbe essere visualizzata successivamente nelle impostazioni della maschera. Inoltre, se il robot di ricerca rileva una pagina che corrisponde sia a una maschera data di inclusione che a una maschera data di esclusione, la maschera elencata per prima ha sempre la precedenza.

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Informazioni sull'utilizzo di parole chiave con maschere di data

È possibile qualificare ciascuna maschera con una o più parole chiave separate da spazi, che influiscono sulla modalità di indicizzazione delle pagine corrispondenti.

Una virgola non è valida come separatore tra la maschera e la parola chiave; potete usare solo degli spazi.

Parola chiave

Descrizione

noindex

Se non si desidera indicizzare il testo nelle pagine con data corrispondente o precedente alla data specificata dalla maschera di inclusione, aggiungere noindex dopo la maschera data di inclusione, come illustrato di seguito:

include-days&nbsp;10&nbsp;*.swf&nbsp;noindex

Separate la parola chiave dalla maschera con uno spazio.

L'esempio precedente specifica che il robot di ricerca segue tutti i collegamenti da file con estensione ".swf" che hanno un'età di 10 giorni o più. Tuttavia, disabilita l'indicizzazione di tutto il testo contenuto in tali file.

Potete verificare che il testo per i file meno recenti non sia indicizzato ma segua comunque tutti i collegamenti da tali file. In questi casi, utilizzate una maschera data di inclusione con la parola chiave "noindex" invece di usare una maschera data di esclusione.

nofollow

Se desiderate indicizzare il testo sulle pagine con data corrispondente o precedente alla data specificata dalla maschera di inclusione, ma non desiderate seguire i collegamenti della pagina corrispondente, aggiungete nofollow dopo la maschera data di inclusione, come illustrato di seguito:

include-days&nbsp;8&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

Separate la parola chiave dalla maschera con uno spazio.

Il La parola chiave nofollow equivale a un tag meta robot con content="nofollow" tra Tag <head>...</head> delle pagine corrispondenti.

data server

Utilizzata sia per includere che per escludere le maschere.

Il robot di ricerca in genere scarica e analizza ogni file prima di controllare le maschere data. Questo comportamento si verifica perché alcuni tipi di file possono specificare una data all'interno del file stesso. Ad esempio, un documento HTML può includere tag meta che impostano la data del file.

Se si desidera escludere molti file in base alla data e non si desidera caricare un carico inutile sui server, è possibile utilizzare server-date dopo l'URL nella maschera data.

Questa parola chiave indica al robot di ricerca di considerare attendibile la data del file restituito dal server invece di analizzare ciascun file. Ad esempio, la maschera data di esclusione seguente ignora le pagine che corrispondono all’URL se i documenti sono di 90 giorni o più, in base alla data restituita dal server nelle intestazioni HTTP:

exclude-days&nbsp;90&nbsp;https://www.mydomain.com/docs/archive&nbsp;server-date

Se la data restituita dal server è di 90 giorni o più, server-date specifica che i documenti esclusi non possono essere scaricati dal server. Ciò comporta tempi di indicizzazione più rapidi per i documenti e un carico ridotto sui server. If server-date non è specificato, il robot di ricerca ignora la data restituita dal server nelle intestazioni HTTP. Al contrario, ogni file viene scaricato e controllato per verificare se la data è specificata. Se nel file non è specificata alcuna data, il robot di ricerca utilizza la data restituita dal server.

Non utilizzare server-date se i file contengono comandi che ignorano la data del server.

regexp

Utilizzate sia per includere che escludere le maschere.

Qualsiasi maschera data preceduta da regexp viene trattata come un'espressione regolare.

Se il robot di ricerca rileva file che corrispondono a una maschera data con espressione regolare esclusa, non indicizza tali file.

Se il robot di ricerca rileva file che corrispondono a una maschera data con espressione regolare, indicizza tali documenti.

Ad esempio, si supponga di disporre della maschera data seguente:

exclude-days&nbsp;180&nbsp;regexp&nbsp;.*archive.*

La maschera indica al robot di ricerca di escludere i file corrispondenti che abbiano una durata pari o superiore a 180 giorni. ovvero file che contengono la parola "archivio" nell’URL.

Vedere Espressioni regolari .

Aggiunta di maschere data per indicizzare o non indicizzare parti del sito Web

Potete utilizzare le maschere data per includere o escludere i file dai risultati della ricerca dei clienti in base all’età dei file.

Utilizzare i campi Test Date e Test URL per verificare se un file è incluso o meno dopo l'indicizzazione.

Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Per aggiungere maschere di data per indicizzare o non indicizzare parti del sito Web

  1. Scegliere Settings > Crawling > Date Masks dal menu del prodotto.

  2. (Facoltativo) Nella pagina Date Masks, nel campo Test Date immettere una data formattata come AAAA-MM-GG (ad esempio, 2011-07-25); nel campo Test URL, inserite una maschera URL dal sito Web e fate clic su Test.

  3. Nel campo Date Masks, immettere un indirizzo maschera data per riga.

  4. Clic Save Changes.

  5. (Facoltativo) Effettuate una delle seguenti operazioni:

Informazioni sulle password

Per accedere a porzioni del sito Web protette dall'autenticazione di base HTTP, potete aggiungere una o più password.

Prima che gli effetti delle impostazioni Password siano visibili ai clienti, dovete ricreare l'indice del sito.

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Nella pagina Passwords, digitate ogni password su una sola riga. La password è composta da un URL o un realm, un nome utente e una password, come nell'esempio seguente:

https://www.mydomain.com/ myname mypassword

Invece di usare un percorso URL, come sopra, potete anche specificare un realm.

Per determinare l'area di autenticazione corretta da utilizzare, aprire una pagina Web protetta da password con un browser e consultare la finestra di dialogo "Immettere la password di rete".

Il nome dell'area di autenticazione, in questo caso, è "Area del sito personale".

Utilizzando il nome dell'area di autenticazione riportato sopra, la password potrebbe essere simile a quella riportata di seguito:

My Site Realm myusername mypassword

Se il sito Web ha più aree di autenticazione, è possibile creare più password immettendo un nome utente e una password per ogni area di autenticazione su una riga separata, come nell'esempio seguente:

Realm1 name1 password1 
Realm2 name2 password2 
Realm3 name3 password3

È possibile utilizzare password che contengono URL o aree di autenticazione diverse, in modo che l'elenco delle password abbia l'aspetto seguente:

Realm1 name1 password1 
https://www.mysite.com/path1/path2 name2 password2 
Realm3 name3 password3 
Realm4 name4 password4 
https://www.mysite.com/path1/path5 name5 password5 
https://www.mysite.com/path6 name6 password6

Nell'elenco di cui sopra, viene utilizzata la prima password che contiene un realm o un URL corrispondente alla richiesta di autenticazione del server. Anche se il file in https://www.mysite.com/path1/path2/index.html è in Realm3, ad esempio, vengono utilizzati name2 e password2 perché la password definita con l'URL è elencata sopra a quella definita con l'area di autenticazione.

Aggiunta di password per accedere alle aree del sito Web che richiedono l'autenticazione

Potete utilizzare Password per accedere alle aree protette da password del sito Web a scopo di ricerca per indicizzazione e indicizzazione.

Prima che gli effetti della password siano visibili ai clienti, accertatevi di ricreare l'indice del sito

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Aggiunta di password per l'accesso alle aree del sito Web che richiedono l'autenticazione

  1. Scegliere Settings > Crawling > Passwords dal menu del prodotto.

  2. Nella pagina Passwords, nel campo Passwords immettere un realm o un URL e il nome utente e la password associati, separati da uno spazio.

    Esempio di password di un realm e di una password URL su righe separate:

    Realm1 name1 password1 
    https://www.mysite.com/path1/path2 name2 password2
    

    Aggiungete una sola password per riga.

  3. Clic Save Changes.

  4. (Facoltativo) Effettuate una delle seguenti operazioni:

Informazioni sui tipi di contenuto

È possibile utilizzare Content Types per selezionare i tipi di file che si desidera sottoporre a ricerca per indicizzazione e indicizzare per questo account.

I tipi di contenuto che è possibile scegliere per la ricerca per indicizzazione e per indicizzazione includono documenti PDF, documenti di testo, filmati Flash di Adobe, file da applicazioni Microsoft Office come Word, Excel e Powerpoint e testo in file MP3. Il testo che si trova all’interno dei tipi di contenuto selezionati viene cercato insieme a tutto il testo presente nel sito Web.

Prima che gli effetti delle impostazioni Tipi di contenuto siano visibili ai clienti, dovete ricreare l'indice del sito.

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Informazioni sull'indicizzazione di file musicali MP3

Se selezionate l'opzione Text in MP3 Music Files nella pagina Content Types, un file MP3 viene sottoposto a ricerca per indicizzazione e indicizzato in uno dei due modi seguenti. Il primo e più comune metodo è rappresentato da un tag href di ancoraggio in un file HTML come illustrato di seguito:

<a href="MP3-file-URL"></a>

Il secondo modo consiste nell’inserire l’URL del file MP3 come punto di ingresso dell’URL.

Consultate Informazioni sui punti di ingresso URL.

Un file MP3 viene riconosciuto dal tipo MIME "audio/mpeg".

Tenete presente che le dimensioni dei file musicali MP3 possono essere piuttosto grandi, anche se in genere contengono solo una piccola quantità di testo. Ad esempio, i file MP3 possono memorizzare facoltativamente elementi quali il nome dell'album, il nome dell'artista, il titolo della canzone, il genere della canzone, l'anno di rilascio e un commento. Queste informazioni vengono memorizzate alla fine del file in quello che viene chiamato TAG. I file MP3 contenenti informazioni TAG sono indicizzati nel modo seguente:

  • Il titolo del brano viene trattato come il titolo di una pagina HTML.
  • Il commento viene trattato come una descrizione definita per una pagina HTML.
  • Il genere viene trattato come una parola chiave definita per una pagina HTML.
  • Il nome dell'artista, il nome dell'album e l'anno di rilascio vengono trattati come il corpo di una pagina HTML.

Ogni file MP3 che viene sottoposto a ricerca per indicizzazione e con scorrimento nel sito Web viene contato come una pagina.

Se il sito Web contiene molti file MP3 di grandi dimensioni, potete superare il limite di byte di indicizzazione per il vostro account. In questo caso, è possibile deselezionare Text in MP3 Music Files nella pagina Content Types per impedire l'indicizzazione di tutti i file MP3 sul sito Web.

Se desiderate solo impedire l’indicizzazione di alcuni file MP3 sul vostro sito Web, potete effettuare una delle seguenti operazioni:

  • Circondare i tag di ancoraggio che collegano ai file MP3 con i tag <nofollow> e </nofollow>. Il robot di ricerca non segue i collegamenti tra tali tag.

  • Aggiungete gli URL dei file MP3 come maschere di esclusione.

    Consultate Le maschere URL.

Selezione dei tipi di contenuto per la ricerca per indicizzazione e l'indice

È possibile utilizzare Content Types per selezionare i tipi di file che si desidera sottoporre a ricerca per indicizzazione e indicizzare per questo account.

I tipi di contenuto che è possibile scegliere per la ricerca per indicizzazione e per indicizzazione includono documenti PDF, documenti di testo, filmati Flash di Adobe, file da applicazioni Microsoft Office come Word, Excel e Powerpoint e testo in file MP3. Il testo che si trova all’interno dei tipi di contenuto selezionati viene cercato insieme a tutto il testo presente nel sito Web.

Prima che gli effetti delle impostazioni Tipi di contenuto siano visibili ai clienti, dovete ricreare l'indice del sito.

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Per eseguire ricerche per indicizzazione e indicizzazione di file MP3 cinesi, giapponesi o coreani, completare i passaggi descritti di seguito. Quindi, in Settings > Metadata > Injections, specificare il set di caratteri utilizzato per codificare i file MP3.

Vedere Informazioni sulle iniezioni.

Per selezionare i tipi di contenuto da sottoporre a ricerca per indicizzazione e

  1. Scegliere Settings > Crawling > Content Types dal menu del prodotto.

  2. Nella pagina Content Types verificare i tipi di file che si desidera sottoporre a ricerca per indicizzazione e indicizzare sul sito Web.

  3. Clic Save Changes.

  4. (Facoltativo) Effettuate una delle seguenti operazioni:

Informazioni sulle connessioni

È possibile utilizzare Connessioni per aggiungere fino a dieci connessioni HTTP utilizzate dal robot di ricerca per indicizzare il sito Web.

Aumentare il numero di connessioni può ridurre notevolmente il tempo necessario per completare una ricerca per indicizzazione e un indice. Tuttavia, tenete presente che ogni connessione aggiuntiva aumenta il carico sul server.

Aggiunta di connessioni per aumentare la velocità di indicizzazione

È possibile ridurre il tempo necessario per indicizzare il sito Web utilizzando Connessioni per aumentare il numero di connessioni HTTP simultanee utilizzate dal crawler. È possibile aggiungere fino a dieci connessioni.

Tenete presente che ogni connessione aggiuntiva aumenta il carico inserito sul server.

Per aggiungere connessioni per aumentare la velocità di indicizzazione

  1. Scegliere Settings > Crawling > Connections dal menu del prodotto.

  2. Nella pagina Parallel Indexing Connections, nel campo Number of Connections immettere il numero di connessioni (1-10) che si desidera aggiungere.

  3. Clic Save Changes.

  4. (Facoltativo) Effettuate una delle seguenti operazioni:

Informazioni sull'invio del modulo

È possibile utilizzare l'opzione Invia modulo per riconoscere ed elaborare i moduli sul sito Web.

Durante la ricerca per indicizzazione e l'indicizzazione del sito Web, ogni modulo rilevato viene confrontato con le definizioni del modulo aggiunte. Se un modulo corrisponde alla definizione di un modulo, il modulo viene inviato per l'indicizzazione. Se un modulo corrisponde a più definizioni, viene inviato una volta per ciascuna definizione corrispondente.

Aggiunta di definizioni di moduli per l'indicizzazione di moduli nel sito Web

È possibile utilizzare Form Submission per elaborare moduli riconosciuti sul sito Web a scopo di indicizzazione.

Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle modifiche siano visibili ai clienti.

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Aggiunta di definizioni di moduli per l'indicizzazione dei moduli nel sito Web

  1. Scegliere Settings > Crawling > Form Submission dal menu del prodotto.

  2. Nella pagina Form Submission fare clic su Add New Form.

  3. Nella pagina Add Form Definition, impostare le opzioni Form Recognition e Form Submission.

    Le cinque opzioni nella sezione Form Recognition della pagina Form Definition vengono utilizzate per identificare i moduli nelle pagine Web che possono essere elaborati.

    Le tre opzioni della sezione Form Submission vengono utilizzate per specificare i parametri e i valori inviati con un modulo al server Web.

    Immettere un parametro di riconoscimento o di invio per riga. Ogni parametro deve includere un nome e un valore.

    Opzione

    Descrizione

    Riconoscimento dei moduli

    Maschera URL pagina

    Identificare la pagina Web o le pagine che contengono il modulo. Per identificare un modulo che viene visualizzato su una singola pagina, immettete l’URL della pagina come nell’esempio seguente:

    https://www.mydomain.com/login.html

    Per identificare i moduli che vengono visualizzati su più pagine, specificare una maschera URL che utilizza i caratteri jolly per descrivere le pagine. Per identificare i moduli incontrati in qualsiasi pagina ASP in https://www.mydomain.com/register/ , ad esempio, è necessario specificare quanto segue:

    https://www.mydomain.com/register/*.asp&nbsp;

    È inoltre possibile utilizzare un'espressione regolare per identificare più pagine. È sufficiente specificare regexp parola chiave prima della maschera URL, come nell'esempio seguente:

    regexp&nbsp;^https://www\.mydomain\.com/.*/login\.html$

    URL azione

    Identifica l’attributo action del Tag <form> .

    Come la maschera URL pagina, la maschera URL azione può assumere la forma di un singolo URL, un URL con caratteri jolly o un'espressione regolare.

    La maschera URL può essere una delle seguenti:

    • Un percorso completo come nel seguente: https://www.mydomain.com/products.html
    • Un percorso parziale come nel seguente: https://www.mydomain.com/products
    • Un URL che utilizza caratteri jolly come illustrato di seguito: https://www.mydomain.com/*.html
    • Un'espressione regolare come nell'esempio seguente: regexp&nbsp^https://www\.mydomain\.com/.*/login\.html$

    Se non si desidera indicizzare il testo nelle pagine identificate da una maschera URL o da una maschera URL azione, oppure se non si desidera che i collegamenti siano seguiti in tali pagine, è possibile utilizzare la noindex e nofollow parole chiave. Potete aggiungere queste parole chiave alle maschere utilizzando maschere URL o punti di ingresso.

    Consultate I punti di ingresso URL .

    Consultate Le maschere URL .

    Maschera nome modulo

    Identifica i moduli se il I tag <form> presenti nelle pagine Web contengono un attributo name.

    È possibile utilizzare un nome semplice ( login_form ), un nome con un carattere jolly ( form* ) o un'espressione regolare ( regexp ^.*authorize.*$ ).

    In genere è possibile lasciare vuoto questo campo perché i moduli in genere non hanno un attributo nome.

    Maschera ID modulo

    Identifica i moduli se il I tag <form> nelle pagine Web contengono un attributo id.

    È possibile utilizzare un nome semplice ( login_form ), un nome con un carattere jolly ( form* ) o un'espressione regolare ( regexp ^.*authorize.*$ ).

    In genere è possibile lasciare vuoto questo campo perché i moduli in genere non hanno un attributo nome.

    Parametri

    Identificare i moduli che contengono o non contengono parametri denominati con un valore specifico.

    Ad esempio, per identificare un modulo che contiene un parametro e-mail preimpostato su rick_brough@mydomain.com, un parametro password, ma non un parametro first-name, è necessario specificare le seguenti impostazioni di parametro, una per riga:

    email=rick_brough@mydomain.com password not first-name

    Invio modulo

    URL azione di esclusione

    Specificare se la destinazione dell'invio del modulo è diversa da quella specificata nell'attributo action del modulo.

    Ad esempio, è possibile utilizzare questa opzione quando il modulo viene inviato tramite una funzione JavaScript che crea un valore URL diverso da quello trovato nel modulo.

    Metodo Override

    Specificare quando la destinazione dell'invio del modulo è diversa da quella utilizzata nell'attributo action del modulo e quando il codice JavaScript di invio ha modificato il metodo.

    I valori predefiniti per tutti i parametri del modulo ( <input> tag, inclusi campi nascosti), impostazione predefinita <option> da un Tag <select> e testo predefinito compreso tra <textarea>...</textarea> tag) vengono letti dalla pagina Web. Tuttavia, qualsiasi parametro elencato nella sezione Invio modulo , nel campo Parametri , viene sostituito con le impostazioni predefinite del modulo.

    Parametri

    È possibile assegnare un prefisso ai parametri di invio del modulo not parola chiave.

    Quando si assegna un prefisso a un parametro con not , non viene inviato come parte dell'invio del modulo. Questo comportamento è utile per le caselle di controllo che devono essere inviate deselezionate.

    Ad esempio, si supponga di voler inviare i seguenti parametri:

    • Il parametro e-mail con il valore nobody@mydomain.com
    • Il parametro password con il valore tryme
    • Il parametro myCasella di controllo è deselezionato.
    • Tutti gli altri <form> parametri come valori predefiniti

    Il parametro di invio del modulo sarà simile al seguente:

    email=nobody@mydomain.com password=tryme not mycheckbox

    L'attributo metodo della variabile Il tag <form> nella pagina Web viene utilizzato per stabilire se i dati vengono inviati al server utilizzando il metodo GET o il metodo POST.

    Se Il tag <form> non contiene un attributo del metodo, il modulo viene inviato utilizzando il metodo GET.

  4. Clic Add.

  5. (Facoltativo) Effettuate una delle seguenti operazioni:

Modifica della definizione del modulo

È possibile modificare una definizione di modulo esistente se un modulo sul sito Web è stato modificato o se è necessario modificarla.

Tenere presente che nella pagina Form Submission non è presente alcuna funzione History per ripristinare le modifiche apportate alla definizione di un modulo.

Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle modifiche siano visibili ai clienti.

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Per modificare una definizione di modulo

  1. Scegliere Settings > Crawling > Form Submission dal menu del prodotto.

  2. Nella pagina Form Submission, fare clic su Edit a destra della definizione di un modulo da aggiornare.

  3. Nella pagina Edit Form Definition, impostare le opzioni Form Recognition e Form Submission.

    Vedere la tabella delle opzioni in Aggiunta di definizioni di moduli per l'indicizzazione dei moduli nel sito Web.

  4. Clic Save Changes.

  5. (Facoltativo) Effettuate una delle seguenti operazioni:

Eliminazione di una definizione di modulo

È possibile eliminare una definizione di modulo esistente se il modulo non esiste più sul sito Web o se non si desidera più elaborare e indicizzare un modulo specifico.

Tenere presente che nella pagina Form Submission non è presente alcuna funzione History per ripristinare le modifiche apportate alla definizione di un modulo.

Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle modifiche siano visibili ai clienti.

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Per eliminare una definizione di modulo

  1. Scegliere Settings > Crawling > Form Submission dal menu del prodotto.

  2. Nella pagina Form Submission, fare clic su Delete a destra della definizione di un modulo che si desidera rimuovere.

    Assicurarsi di scegliere la definizione corretta del modulo da eliminare. Non è disponibile alcuna finestra di dialogo di conferma dell'eliminazione quando si fa clic su Delete nel passaggio successivo.

  3. Nella pagina Delete Form Definition fare clic su Delete.

  4. (Facoltativo) Effettuate una delle seguenti operazioni:

Informazioni sul connettore indice

Utilizzate Index Connector per definire origini di input aggiuntive per l'indicizzazione di pagine XML o qualsiasi tipo di feed.

È possibile utilizzare un'origine di input di feed di dati per accedere al contenuto memorizzato in un modulo diverso da quello di solito scoperto in un sito Web utilizzando uno dei metodi disponibili per la ricerca per indicizzazione. Ogni documento sottoposto a ricerca per indicizzazione e indicizzato corrisponde direttamente a una pagina di contenuto del sito Web. Tuttavia, un feed di dati proviene da un documento XML o da un file di testo delimitato da virgole o da tabulazioni e contiene le informazioni sul contenuto da indicizzare.

Un'origine dati XML è costituita da stanzas XML, o record, che contengono informazioni corrispondenti a singoli documenti. Questi singoli documenti vengono aggiunti all’indice. Un feed di dati di testo contiene singoli record delimitati da nuove righe che corrispondono a singoli documenti. All’indice vengono aggiunti anche questi singoli documenti. In entrambi i casi, una configurazione di connettore indice descrive come interpretare il feed. Ogni configurazione descrive la posizione del file e la modalità di accesso dei server. La configurazione descrive anche le informazioni sulla mappatura. In altre parole, in che modo gli elementi di ciascun record vengono utilizzati per compilare i campi di metadati nell'indice risultante.

Dopo aver aggiunto una definizione del connettore indice alla pagina Staged Index Connector Definitions, è possibile modificare qualsiasi impostazione di configurazione, tranne per i valori Nome o Tipo.

La pagina Index Connector contiene le informazioni seguenti:

  • Nome dei connettori di indice definiti configurati e aggiunti dall'utente.

  • Uno dei seguenti tipi di origini dati per ciascun connettore aggiunto:

    • Testo : semplici file "semplici", delimitati da virgole, delimitati da tabulazioni o altri formati delimitati in modo coerente.
    • Feed - Feed XML.
    • XML - Raccolte di documenti XML.
  • Indica se il connettore è abilitato o meno per la ricerca per indicizzazione successiva e se l'indicizzazione è stata completata.

  • Indirizzo dell'origine dati.

Vedere anche Informazioni sul connettore indice

Funzionamento del processo di indicizzazione per le configurazioni di testo e feed nel connettore indice

Passaggio

Processo

Descrizione

1

Scarica l'origine dati.

Per le configurazioni di testo e feed, si tratta di un semplice download di file.

2

Suddivide l'origine dati scaricata in singoli pseudo-documenti.

Per Testo , ogni riga di testo delimitata da una nuova riga corrisponde a un singolo documento ed è analizzata utilizzando il delimitatore specificato, ad esempio una virgola o una tabulazione.

Per Feed , i dati di ciascun documento vengono estratti utilizzando un pattern di espressione regolare nel seguente modulo:

<${Itemtag}>(.*?)</${Itemtag}>

Utilizzando Mappa nella pagina Connettore indice Aggiungere , creare una copia memorizzata nella cache dei dati e quindi creare un elenco di collegamenti per il crawler. I dati vengono memorizzati in una cache locale e compilati con i campi configurati.

I dati analizzati vengono scritti nella cache locale.

Questa cache viene letta in seguito per creare i documenti HTML semplici necessari al crawler. Ad esempio,

<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>

L'elemento <title> viene generato solo quando esiste una mappatura al campo di metadati Titolo. Analogamente, l'elemento <body> viene generato solo quando esiste una mappatura al campo di metadati Body.

Importante: Non è supportato l'assegnazione di valori al tag meta dell'URL predefinito.

Per tutte le altre mappature, vengono generati tag <meta> per ogni campo contenente dati presenti nel documento originale.

I campi per ciascun documento vengono aggiunti alla cache. Per ogni documento scritto nella cache, viene generato anche un collegamento come negli esempi seguenti:

<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....

La mappatura della configurazione deve avere un campo identificato come Chiave primaria. Questa mappatura costituisce la chiave utilizzata quando i dati vengono estratti dalla cache.

Il crawler riconosce l'indice URL : prefisso dello schema, che può quindi accedere ai dati memorizzati nella cache locale.

3

Eseguire la ricerca per indicizzazione del set di documenti memorizzato nella cache.

Indice : I collegamenti vengono aggiunti all'elenco in sospeso del crawler e elaborati nella normale sequenza di ricerca per indicizzazione.

4

Elabora ogni documento.

Il valore chiave di ciascun collegamento corrisponde a una voce nella cache, pertanto la ricerca per indicizzazione di ciascun collegamento determina il recupero dei dati del documento dalla cache. Viene quindi "assemblato" in un’immagine HTML elaborata e aggiunta all’indice.

Funzionamento del processo di indicizzazione per le configurazioni XML nel connettore indice

Il processo di indicizzazione per la configurazione XML è simile al processo per le configurazioni di testo e feed con le seguenti modifiche ed eccezioni minori.

Poiché i documenti per le ricerche per indicizzazione XML sono già separati in singoli file, i passaggi 1 e 2 della tabella precedente non si applicano direttamente. Se si specifica un URL nei campi Host Address e File Path della pagina Index Connector Add, questo viene scaricato ed elaborato come normale documento HTML. Ci si aspetta che il documento di download contenga una raccolta di collegamenti <a href="{url}"..., ciascuno dei quali punta a un documento XML elaborato. Tali collegamenti sono convertiti nel seguente modulo:

<a href="index:<ic_config_name>?url="{url}">

Ad esempio, se l'impostazione del Adobe restituiva i seguenti collegamenti:

<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a> 
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>

Nella tabella precedente, il punto 3 non si applica e il punto 4 è completato al momento della ricerca per indicizzazione e dell'indicizzazione.

In alternativa, è possibile combinare i documenti XML con altri documenti scoperti naturalmente attraverso il processo di ricerca per indicizzazione. In tali casi, è possibile utilizzare le regole di riscrittura ( Settings > Rewrite Rules > Crawl List Retrieve URL Rules) per modificare gli URL dei documenti XML e indirizzarli al connettore indice.

Vedere Informazioni sulle regole URL per il recupero dell'elenco di ricerca per indicizzazione.

Ad esempio, supponiamo che si disponga della seguente regola di riscrittura:

RewriteRule (^http.*[.]xml$) index:Adobe?key=$1

Questa regola converte qualsiasi URL che termina con .xml in un collegamento del connettore indice. Il crawler riconosce e riscrive lo schema URL index:. Il processo di download viene reindirizzato attraverso il server Apache del connettore indice sul server principale. Ogni documento scaricato viene esaminato utilizzando lo stesso pattern di espressione regolare utilizzato con Feeds. In questo caso, tuttavia, il documento HTML prodotto non viene salvato nella cache. Viene invece consegnato direttamente al crawler per l’elaborazione dell’indice.

Come configurare più connettori indice

È possibile definire più configurazioni del connettore indice per qualsiasi account. Le configurazioni vengono aggiunte automaticamente all'elenco a discesa in Settings > Crawl > URL Entrypoints, come illustrato nella figura seguente:

Selezionando una configurazione dall’elenco a discesa, il valore viene aggiunto alla fine dell’elenco dei punti di immissione dell’URL.

NOTA

Le configurazioni del connettore indice disattivate vengono aggiunte all'elenco a discesa, ma non è possibile selezionarle. Se si seleziona una seconda volta la stessa configurazione del connettore indice, questa viene aggiunta alla fine dell'elenco e l'istanza precedente viene eliminata.

Per specificare un punto di ingresso del connettore indice per una ricerca per indicizzazione incrementale, è possibile aggiungere voci utilizzando il formato seguente:

index:<indexconnector_configuration_name>

Il crawler elabora ogni voce aggiunta se questa si trova nella pagina Connettori indice ed è abilitata.

Nota: Poiché l'URL di ciascun documento è costruito utilizzando il nome di configurazione del connettore indice e la chiave primaria del documento, accertatevi di utilizzare lo stesso nome di configurazione del connettore indice durante l'esecuzione degli aggiornamenti incrementali! Ciò consente a Adobe Search&Promote di aggiornare correttamente i documenti indicizzati in precedenza.

Vedere anche Informazioni sui punti di entrata URL.

Utilizzo delle mappe di impostazione quando si aggiunge un connettore indice

Quando si aggiunge un connettore indice, è possibile utilizzare la funzione Setup Maps per scaricare un esempio dell'origine dati. I dati vengono esaminati per verificare l'idoneità all'indicizzazione.

Se si sceglie il tipo di connettore indice...

La funzione Mappe di configurazione...

Testo

Determina il valore del delimitatore provando prima le tabulazioni, poi le barre verticali ( | ) e infine virgole ( , ). Se prima di fare clic su Mappe di installazione avete già specificato un valore di delimitazione, tale valore viene utilizzato.

Lo schema di adattamento ottimale si traduce nella compilazione dei campi Mappa con gli specchietti ai valori appropriati di Tag e Campo. Inoltre, viene visualizzato un esempio dei dati analizzati. Assicurarsi di selezionare Intestazioni nella prima riga se si è certi che il file include una riga di intestazione. La funzione di configurazione utilizza queste informazioni per identificare meglio le voci di mappa risultanti.

Feed

Scarica l'origine dati ed esegue un'analisi XML semplice.

Gli identificatori XPath risultanti vengono visualizzati nelle righe Tag della tabella Mappa e valori simili nei campi. Queste righe identificano solo i dati disponibili e non generano le definizioni XPath più complesse. Tuttavia, è ancora utile perché descrive i dati XML e identifica i valori degli elementi tag.

Nota: La funzione Setup Maps scarica l’intera origine XML per eseguire l’analisi. Se il file è di grandi dimensioni, l'operazione potrebbe non riuscire.

In caso di esito positivo, questa funzione identifica tutti gli elementi XPath possibili, molti dei quali non sono desiderabili da utilizzare. Accertatevi di esaminare le definizioni di mappa risultanti e rimuovere quelle non necessarie o desiderate.

XML

Scarica l’URL di un singolo documento rappresentativo, non l’elenco di collegamenti principale. Questo singolo documento viene analizzato utilizzando lo stesso meccanismo utilizzato con i feed, e i risultati vengono visualizzati.

Prima di fare clic su Aggiungi per salvare la configurazione, assicurarsi di ripristinare l'URL al documento dell'elenco dei collegamenti principale.

Importante: La funzione Mappe di installazione potrebbe non funzionare per set di dati XML di grandi dimensioni perché il parser di file tenta di leggere l’intero file in memoria. Di conseguenza, potrebbe verificarsi una condizione di memoria insufficiente. Tuttavia, quando lo stesso documento viene elaborato al momento dell'indicizzazione, non viene letto in memoria. Al contrario, i documenti di grandi dimensioni vengono elaborati "in movimento" e non vengono prima letti completamente nella memoria.

Utilizzo dell'anteprima quando si aggiunge un connettore indice

Al momento dell'aggiunta di un connettore indice, è possibile utilizzare la funzione Preview per convalidare i dati, come se li si stesse salvando. Esegue un test rispetto alla configurazione, ma senza salvare la configurazione nell'account. Il test accede all'origine dati configurata. Tuttavia, scrive la cache di download in un percorso temporaneo; non entra in conflitto con la cartella cache principale utilizzata dal crawler di indicizzazione.

Preview elabora solo un predefinito di cinque documenti, come controllato da Acct:IndexConnector-Preview-Max-Documents. I documenti visualizzati in anteprima vengono visualizzati nel modulo di origine, man mano che vengono presentati al crawler di indicizzazione. La visualizzazione è simile alla funzione "Visualizza origine" di un browser Web. Potete spostarvi tra i documenti del set di anteprima utilizzando i collegamenti di navigazione standard.

L'anteprima non supporta le configurazioni XML perché tali documenti vengono elaborati direttamente e non scaricati nella cache.

Aggiunta di una definizione del connettore indice

Ogni configurazione del connettore indice definisce un'origine dati e le mappature per collegare gli elementi dati definiti per tale origine ai campi di metadati nell'indice.

Prima che gli effetti della definizione nuova e abilitata siano visibili ai clienti, ricreate l’indice del sito.

Per aggiungere una definizione del connettore indice

  1. Scegliere Settings > Crawling > Index Connector dal menu del prodotto.

  2. Nella pagina Stage Index Connector Definitions fare clic su Add New Index Connector.

  3. Nella pagina Index Connector Add, impostare le opzioni di connettore desiderate. Le opzioni disponibili dipendono dalla Type selezionata.

    Opzione

    Descrizione

    Nome

    Nome univoco della configurazione del connettore indice. È possibile utilizzare caratteri alfanumerici. Sono consentiti anche i caratteri "_" e "-".

    Tipo

    Origine dei dati. Il tipo di origine dati selezionato influisce sulle opzioni risultanti disponibili nella pagina Connettore indice Aggiungi . Potete scegliere tra le seguenti opzioni:

    • Testo

      File di testo semplici, delimitati da virgole, delimitati da tabulazioni o altri formati delimitati in modo coerente. Ogni riga di testo delimitata da una nuova riga corrisponde a un singolo documento e viene analizzata utilizzando il delimitatore specificato.

      Potete mappare ciascun valore, o colonna, su un campo di metadati, a cui fa riferimento il numero di colonna, a partire da 1 (uno).

    • Feed

      Scarica un documento XML principale che contiene più "righe" di informazioni.

    • XML

      Scarica un documento XML principale contenente collegamenti ( <a> ) a singoli documenti XML.

    Tipo origine dati: Testo

    Abilitato

    Attiva la configurazione per la ricerca per indicizzazione e l’indicizzazione. In alternativa, è possibile disattivare la configurazione per impedire la ricerca per indicizzazione e l'indicizzazione.

    Nota: Le configurazioni del connettore indice disattivate vengono ignorate se sono presenti in un elenco entrypoint.

    Indirizzo host

    Specifica l'indirizzo dell'host del server in cui si trovano i dati.

    Se necessario, è possibile specificare un percorso URI completo (Uniform Resource Identifier) per il documento di origine dati, come negli esempi seguenti:

    https://www.somewhere.com/some_path/some_file.xml

     oppure 

    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.xml

    L'URI è suddiviso nelle voci appropriate per i campi Indirizzo host, Percorso file, Protocollo e, facoltativamente, Nome utente e Password.

    Specifica l'indirizzo IP o l'indirizzo URL del sistema host in cui viene trovato il file di origine dati.

    Percorso file

    Specifica il percorso del semplice file di testo semplice, delimitato da virgole, delimitato da tabulazioni o di altro formato delimitato in modo coerente.

    Il percorso è relativo alla radice dell'indirizzo host.

    Percorso file incrementale

    Specifica il percorso del semplice file di testo semplice, delimitato da virgole, delimitato da tabulazioni o di altro formato delimitato in modo coerente.

    Il percorso è relativo alla radice dell'indirizzo host.

    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. Se non viene specificato alcun file, viene utilizzato il file elencato in Percorso file.

    Percorso file verticale

    Specifica il percorso del semplice file di testo semplice semplice, delimitato da virgole, delimitato da tabulazioni o di altro formato delimitato in modo coerente da utilizzare durante un aggiornamento verticale.

    Il percorso è relativo alla radice dell'indirizzo host.

    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni di aggiornamento verticale.

    Nota: Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo.

    Elimina percorso file

    Specifica il percorso del file di testo semplice semplice semplice e semplice, contenente un singolo valore di identificatore del documento per riga.

    Il percorso è relativo alla radice dell'indirizzo host.

    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. I valori trovati in questo file vengono utilizzati per creare richieste di eliminazione per rimuovere documenti indicizzati in precedenza. I valori in questo file devono corrispondere ai valori rilevati nei file Percorso file completo o Incrementale, nella colonna identificata come Chiave primaria .

    Nota: Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo.

    Protocollo

    Specifica il protocollo utilizzato per accedere al file. Potete scegliere tra le seguenti opzioni:

    • HTTP

      Se necessario, potete immettere le credenziali di autenticazione corrette per accedere al server HTTP.

    • HTTPS

      Se necessario, potete immettere le credenziali di autenticazione corrette per accedere al server HTTPS.

    • FTP

      Per accedere al server FTP è necessario immettere le credenziali di autenticazione corrette.

    • SFTP

      Per accedere al server SFTP è necessario immettere le credenziali di autenticazione corrette.

    • File

    Timeout

    Specifica il timeout, in secondi, per le connessioni FTP, SFTP, HTTP o HTTPS. Il valore deve essere compreso tra 30 e 300.

    Tentativi

    Specifica il numero massimo di tentativi per connessioni FTP, SFTP, HTTP o HTTPS non riuscite. Il valore deve essere compreso tra 0 e 10.

    Un valore pari a zero (0) impedisce i tentativi.

    Codifica

    Specifica il sistema di codifica dei caratteri utilizzato nel file di origine dati specificato.

    Delimitatore

    Specifica il carattere da utilizzare per delineare ogni campo nel file di origine dati specificato.

    Il carattere virgola ( , ) è un esempio di carattere di delimitazione. La virgola funge da delimitatore di campo per separare i campi dati nel file di origine dati specificato.

    Selezionare la scheda ? per utilizzare il carattere di delimitazione della tabulazione orizzontale.

    Intestazioni nella prima riga

    Indica che la prima riga del file di origine dati contiene solo informazioni di intestazione, non dati.

    Numero minimo di documenti da indicizzare

    Se è impostato su un valore positivo, questo specifica il numero minimo di record previsti nel file scaricato. Se vengono ricevuti meno record, l'operazione di indice viene interrotta.

    Nota: Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo.

    Nota: Questa funzione è utilizzata solo durante le operazioni con l'indice completo.

    Mappa

    Specifica le mappature tra colonne e metadati utilizzando i numeri di colonna.

    • Colonna

      Specifica un numero di colonna, con la prima colonna pari a 1 (una). Per aggiungere nuove righe di mappa per ciascuna colonna, in Azione fare clic su + .

      Non è necessario fare riferimento a ogni colonna nell'origine dati. È invece possibile scegliere di saltare i valori.

    • Campo

      Definisce il valore dell'attributo name utilizzato per ciascun tag <meta> generato.

    • Metadati?

      Fa sì che il campo diventi un elenco a discesa dal quale è possibile selezionare campi di metadati definiti per l'account corrente.

      Il valore del campo può essere un campo di metadati non definito, se lo si desidera. Un campo di metadati non definito è talvolta utile per creare contenuto utilizzato da Script di filtraggio .

      Vedere Informazioni sul filtraggio degli script .

      Quando il connettore indice elabora documenti XML con più hit su qualsiasi campo mappa, i più valori vengono concatenati in un singolo valore nel documento memorizzato nella cache risultante. Per impostazione predefinita, questi valori vengono combinati mediante un delimitatore di virgola. Tuttavia, supponiamo che il valore corrispondente del campo sia un campo di metadati definito. Inoltre, per tale campo è impostato l'attributo Elenchi consentiti . In questo caso, il valore Delimitatori elenco del campo, che è il primo delimitatore definito, viene utilizzato nella concatenazione.

    • Chiave primaria?

      Una sola definizione di mappa è identificata come chiave primaria. Questo campo diventa il riferimento univoco presentato quando il documento viene aggiunto all'indice. Questo valore viene utilizzato nell'URL del documento nell'indice.

      I valori Chiave primaria devono essere univoci in tutti i documenti rappresentati dalla configurazione del connettore indice. Eventuali duplicati rilevati verranno ignorati. Se i documenti di origine non contengono un singolo valore univoco da utilizzare come Chiave primaria , ma due o più campi considerati insieme possono formare un identificatore univoco, è possibile definire la Chiave primaria combinando più valori Colonna con una barra verticale ("|") che delimitano i valori.

    • Rimuovere il codice HTML?

      Quando questa opzione è selezionata, tutti i tag HTML trovati nei dati di questo campo vengono rimossi.

    • Azione

      Consente di aggiungere righe alla mappa o rimuovere righe dalla mappa. L'ordine delle righe non è importante.

    Tipo origine dati: Feed

    Abilitato

    Attiva la configurazione per la ricerca per indicizzazione e l’indicizzazione. In alternativa, è possibile disattivare la configurazione per impedire la ricerca per indicizzazione e l'indicizzazione.

    Nota: Le configurazioni del connettore indice disattivate vengono ignorate se sono presenti in un elenco entrypoint.

    Indirizzo host

    Specifica l'indirizzo IP o l'indirizzo URL del sistema host in cui viene trovato il file di origine dati.

    Percorso file

    Specifica il percorso del documento XML principale che contiene più "righe" di informazioni.

    Il percorso è relativo alla radice dell'indirizzo host.

    Percorso file incrementale

    Specifica il percorso del documento XML incrementale che contiene più "righe" di informazioni.

    Il percorso è relativo alla radice dell'indirizzo host.

    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. Se non viene specificato alcun file, viene utilizzato il file elencato in Percorso file.

    Percorso file verticale

    Specifica il percorso del documento XML che contiene più "righe" di informazioni sparse da utilizzare durante un aggiornamento verticale.

    Il percorso è relativo alla radice dell'indirizzo host.

    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni di aggiornamento verticale.

    Nota: Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo.

    Elimina percorso file

    Specifica il percorso del file di testo semplice semplice semplice e semplice, contenente un singolo valore di identificatore del documento per riga.

    Il percorso è relativo alla radice dell'indirizzo host.

    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. I valori trovati in questo file vengono utilizzati per creare richieste di eliminazione per rimuovere documenti indicizzati in precedenza. I valori in questo file devono corrispondere ai valori rilevati nei file Percorso file completo o Incrementale, nella colonna identificata come Chiave primaria .

    Nota: Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo.

    Protocollo

    Specifica il protocollo utilizzato per accedere al file. Potete scegliere tra le seguenti opzioni:

    • HTTP

      Se necessario, potete immettere le credenziali di autenticazione corrette per accedere al server HTTP.

    • HTTPS

      Se necessario, potete immettere le credenziali di autenticazione corrette per accedere al server HTTPS.

    • FTP

      Per accedere al server FTP è necessario immettere le credenziali di autenticazione corrette.

    • SFTP

      Per accedere al server SFTP è necessario immettere le credenziali di autenticazione corrette.

    • File

    Nome

    Identifica l'elemento XML che è possibile utilizzare per identificare singole righe XML nel file di origine dati specificato.

    Ad esempio, nel seguente frammento Feed di un documento XML di un Adobe , il valore del tag elemento è record :

    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-/Google/DTD GSA Feeds/EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"><metadata> <meta name="mp_mkt" content="1"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=it"mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_air.png?lang=it"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=it"title" content="Adobe AIR Marketplace"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=it"description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=it"mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_photoshop.png?lang=it"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=it"title" content="Adobe Photoshop Marketplace"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=it"description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>

    Numero minimo di documenti da indicizzare

    Se è impostato su un valore positivo, questo specifica il numero minimo di record previsti nel file scaricato. Se vengono ricevuti meno record, l'operazione di indice viene interrotta.

    Nota: Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo.

    Nota: Questa funzione è utilizzata solo durante le operazioni con l'indice completo.

    Mappa

    Consente di specificare le mappature XML da elemento a metadati utilizzando le espressioni XPath.

    • Tag

      Specifica una rappresentazione XPath dei dati XML analizzati. Utilizzando l'esempio documento XML dell'Adobe precedente, sotto l'opzione Tag elemento, è possibile mappare il file utilizzando la seguente sintassi:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      La sintassi di cui sopra è la seguente:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        L'attributo display url del record viene mappato sul campo di metadati page-url .

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        L'attributo contenuto di qualsiasi elemento meta contenuto all'interno di un elemento di metadati contenuto all'interno di un elemento di record il cui attributo nome è titolo viene mappato sul campo di metadati titolo <a1/>

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        L'attributo contenuto di qualsiasi elemento meta contenuto all'interno di un elemento di metadati contenuto all'interno del record , il cui attributo nome è descrizione , viene mappato sul campo di metadati desc <a1/>

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        L'attributo contenuto di qualsiasi elemento meta contenuto all'interno di un elemento di metadati contenuto all'interno del record , il cui attributo nome è descrizione , viene mappato sul campo di metadati corpo <a1/>

      XPath è una notazione relativamente complicata. Ulteriori informazioni sono disponibili nel seguente percorso:

      Vedere https://www.w3schools.com/xpath/

    • Campo

      Definisce il valore dell'attributo name utilizzato per ciascun tag generato <meta> .

    • Metadati?

      Fa sì che il campo diventi un elenco a discesa dal quale è possibile selezionare campi di metadati definiti per l'account corrente.

      Il valore del campo può essere un campo di metadati non definito, se lo si desidera. Un campo di metadati non definito è talvolta utile per creare contenuto utilizzato da Script di filtraggio .

      Vedere Informazioni sul filtraggio degli script .

      Quando il connettore indice elabora documenti XML con più hit su qualsiasi campo mappa, i più valori vengono concatenati in un singolo valore nel documento memorizzato nella cache risultante. Per impostazione predefinita, questi valori vengono combinati mediante un delimitatore di virgola. Tuttavia, supponiamo che il valore corrispondente del campo sia un campo di metadati definito. Inoltre, per tale campo è impostato l'attributo Elenchi consentiti . In questo caso, il valore Delimitatori elenco del campo, che è il primo delimitatore definito, viene utilizzato nella concatenazione.

    • Chiave primaria?

      Una sola definizione di mappa è identificata come chiave primaria. Questo campo diventa il riferimento univoco presentato quando il documento viene aggiunto all'indice. Questo valore viene utilizzato nell'URL del documento nell'indice.

      I valori Chiave primaria devono essere univoci in tutti i documenti rappresentati dalla configurazione del connettore indice. Eventuali duplicati rilevati verranno ignorati. Se i documenti di origine non contengono un singolo valore univoco da utilizzare come Chiave primaria , ma due o più campi considerati insieme possono formare un identificatore univoco, è possibile definire la Chiave primaria combinando più definizioni di tag con una barra verticale ("|") che delimitano i valori.

    • Rimuovere il codice HTML?

      Quando questa opzione è selezionata, tutti i tag HTML trovati nei dati di questo campo vengono rimossi.

    • Utilizzate Elimina?

      Utilizzato solo durante le operazioni dell'indice incrementale. I record corrispondenti a questo pattern XPath identificano gli elementi da eliminare. Il valore Chiave primaria per ciascun record di questo tipo viene utilizzato per creare richieste di eliminazione, come con Elimina percorso file.

      Nota: Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo.

    • Azione

      Consente di aggiungere righe alla mappa o rimuovere righe dalla mappa. L'ordine delle righe non è importante.

    Tipo origine dati: XML

    Abilitato

    Attiva la configurazione per la ricerca per indicizzazione e l’indicizzazione. In alternativa, è possibile disattivare la configurazione per impedire la ricerca per indicizzazione e l'indicizzazione.

    Nota: Le configurazioni del connettore indice disattivate vengono ignorate se sono presenti in un elenco entrypoint.

    Indirizzo host

    Specifica l'indirizzo URL del sistema host in cui viene trovato il file di origine dati.

    Percorso file

    Specifica il percorso del documento XML principale contenente i collegamenti ( <a> ) a singoli documenti XML.

    Il percorso è relativo alla radice dell'indirizzo host.

    Protocollo

    Specifica il protocollo utilizzato per accedere al file. Potete scegliere tra le seguenti opzioni:

    • HTTP

      Se necessario, potete immettere le credenziali di autenticazione corrette per accedere al server HTTP.

    • HTTPS

      Se necessario, potete immettere le credenziali di autenticazione corrette per accedere al server HTTPS.

    • FTP

      Per accedere al server FTP è necessario immettere le credenziali di autenticazione corrette.

    • SFTP

      Per accedere al server SFTP è necessario immettere le credenziali di autenticazione corrette.

    • File

    Nota: L'impostazione Protocollo viene utilizzata solo se sono specificate informazioni nei campi Indirizzo host e/o Percorso file. I singoli documenti XML vengono scaricati mediante HTTP o HTTPS, in base alle specifiche URL.

    Nome

    Identifica l'elemento XML che definisce una "riga" nel file di origine dati specificato.

    Mappa

    Consente di specificare le mappature tra colonne e metadati utilizzando i numeri di colonna.

    • Tag

      Specifica una rappresentazione XPath dei dati XML analizzati. Utilizzando l'esempio documento XML di Adobe sopra, sotto l'opzione Tag elemento, è possibile eseguire la mappatura utilizzando la sintassi seguente:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      La sintassi di cui sopra è la seguente:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        L'attributo display url del record viene mappato sul campo di metadati page-url .

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        L'attributo contenuto di qualsiasi elemento meta contenuto all'interno di un elemento di metadati contenuto all'interno di un elemento di record il cui attributo nome è titolo viene mappato sul campo di metadati titolo <a1/>

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        L'attributo contenuto di qualsiasi elemento meta contenuto all'interno di un elemento di metadati contenuto all'interno del record , il cui attributo nome è descrizione , viene mappato sul campo di metadati desc <a1/>

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        L'attributo contenuto di qualsiasi elemento meta contenuto all'interno di un elemento di metadati contenuto all'interno del record , il cui attributo nome è descrizione , viene mappato sul campo di metadati corpo <a1/>

      XPath è una notazione relativamente complicata. Ulteriori informazioni sono disponibili nel seguente percorso:

      Vedere https://www.w3schools.com/xpath/

    • Campo

      Definisce il valore dell'attributo name utilizzato per ciascun tag <meta> generato.

    • Metadati?

      Fa sì che il campo diventi un elenco a discesa dal quale è possibile selezionare campi di metadati definiti per l'account corrente.

      Il valore del campo può essere un campo di metadati non definito, se lo si desidera. Un campo di metadati non definito è talvolta utile per creare contenuto utilizzato da Script di filtraggio .

      Vedere Informazioni sul filtraggio degli script .

      Quando il connettore indice elabora documenti XML con più hit su qualsiasi campo mappa, i più valori vengono concatenati in un singolo valore nel documento memorizzato nella cache risultante. Per impostazione predefinita, questi valori vengono combinati mediante un delimitatore di virgola. Tuttavia, supponiamo che il valore corrispondente del campo sia un campo di metadati definito. Inoltre, per tale campo è impostato l'attributo Elenchi consentiti . In questo caso, il valore Delimitatori elenco del campo, che è il primo delimitatore definito, viene utilizzato nella concatenazione.

    • Chiave primaria?

      Una sola definizione di mappa è identificata come chiave primaria. Questo campo diventa il riferimento univoco presentato quando il documento viene aggiunto all'indice. Questo valore viene utilizzato nell'URL del documento nell'indice.

      I valori Chiave primaria devono essere univoci in tutti i documenti rappresentati dalla configurazione del connettore indice. Eventuali duplicati rilevati verranno ignorati. Se i documenti di origine non contengono un singolo valore univoco da utilizzare come Chiave primaria , ma due o più campi considerati insieme possono formare un identificatore univoco, è possibile definire la Chiave primaria combinando più definizioni di tag con una barra verticale ("|") che delimitano i valori.

    • Rimuovere il codice HTML?

      Quando questa opzione è selezionata, tutti i tag HTML trovati nei dati di questo campo vengono rimossi.

    • Azione

      Consente di aggiungere righe alla mappa o rimuovere righe dalla mappa. L'ordine delle righe non è importante.

  4. (Facoltativo) Fare clic su Setup Maps per scaricare un esempio dell'origine dati. I dati vengono esaminati per verificare l'idoneità all'indicizzazione. Questa funzione è disponibile solo per i tipi di testo e feed.

  5. (Facoltativo) Fate clic su Preview per verificare il funzionamento effettivo della configurazione. Questa funzione è disponibile solo per i tipi di testo e feed.

  6. Fare clic su Add per aggiungere la configurazione alla pagina Index Connector Definitions e all'elenco a discesa Index Connector Configurations nella pagina URL Entrypoints.

    Consultate Informazioni sui punti di ingresso URL.

  7. Nella pagina Index Connector Definitions fare clic su rebuild your staged site index.

  8. (Facoltativo) Nella pagina Index Connector Definitions, effettuare una delle seguenti operazioni:

Modifica della definizione del connettore indice

È possibile modificare un connettore indice esistente definito.

NOTA

Non tutte le opzioni possono essere modificate, ad esempio Nome connettore indice o Tipo, dall'elenco a discesa Type.

Per modificare una definizione del connettore indice

  1. Scegliere Settings > Crawling > Index Connector dal menu del prodotto.

  2. Nella pagina Index Connector, sotto l'intestazione di colonna Actions, fare clic su Edit per un nome di definizione del connettore indice di cui si desidera modificare le impostazioni.

  3. Nella pagina Index Connector Edit, impostate le opzioni desiderate.

    Vedere la tabella delle opzioni in Aggiunta di una definizione del connettore indice.

  4. Clic Save Changes.

  5. (Facoltativo) Nella pagina Index Connector Definitions fare clic su rebuild your staged site index.

  6. (Facoltativo) Nella pagina Index Connector Definitions, effettuare una delle seguenti operazioni:

Visualizzazione delle impostazioni di una definizione del connettore indice

È possibile esaminare le impostazioni di configurazione di una definizione di connettore indice esistente.

Dopo aver aggiunto la definizione del connettore indice alla pagina Index Connector Definitions, non è possibile modificarne l'impostazione Tipo. Al contrario, è necessario eliminare la definizione e aggiungerne una nuova.

Per visualizzare le impostazioni di una definizione del connettore indice

  1. Scegliere Settings > Crawling > Index Connector dal menu del prodotto.
  2. Nella pagina Index Connector, sotto l'intestazione di colonna Actions, fare clic su Edit per un nome di definizione del connettore indice le cui impostazioni si desidera rivedere o modificare.

Copia della definizione del connettore indice

È possibile copiare una definizione del connettore indice esistente da usare come base per la creazione di un nuovo connettore indice.

Quando si copia una definizione del connettore indice, per impostazione predefinita la definizione copiata viene disabilitata. Per abilitare o "attivare" la definizione, è necessario modificarla dalla pagina Index Connector Edit e selezionare Enable.

Vedere Modifica della definizione di un connettore indice.

Per copiare una definizione del connettore indice

  1. Scegliere Settings > Crawling > Index Connector dal menu del prodotto.

  2. Nella pagina Index Connector, sotto l'intestazione di colonna Actions, fare clic su Copy per un nome di definizione del connettore indice di cui si desidera duplicare le impostazioni.

  3. Nella pagina Index Connector Copy, immettete il nuovo nome della definizione.

  4. Clic Copy.

  5. (Facoltativo) Nella pagina Index Connector Definitions, effettuare una delle seguenti operazioni:

Ridenominazione della definizione del connettore indice

È possibile modificare il nome di una definizione del connettore indice esistente.

Dopo aver rinominato la definizione, selezionare Settings > Crawling > URL Entrypoints. Assicurarsi che il nuovo nome della definizione sia riportato nell'elenco a discesa della pagina URL Entrypoints.

Consultate Aggiunta di più punti di immissione URL da indicizzare.

Per rinominare una definizione del connettore indice

  1. Scegliere Settings > Crawling > Index Connector dal menu del prodotto.

  2. Nella pagina Index Connector, sotto l'intestazione di colonna Actions, fare clic su Rename per il nome della definizione del connettore indice che si desidera modificare.

  3. Nella pagina Index Connector Rename, immettere il nuovo nome della definizione nel campo Name.

  4. Clic Rename.

  5. Fai clic su Settings > Crawling > URL Entrypoints. Se nell'elenco è presente il nome del connettore indice precedente, rimuoverlo e aggiungere la voce rinominata di recente.

    Consultate Aggiunta di più punti di immissione URL da indicizzare. 1. (Facoltativo) Nella pagina Index Connector Definitions, effettuare una delle seguenti operazioni:

Eliminazione della definizione del connettore indice

È possibile eliminare una definizione del connettore indice esistente non più necessaria o utilizzata.

Per eliminare una definizione del connettore indice

  1. Scegliere Settings > Crawling > Index Connector dal menu del prodotto.
  2. Nella pagina Index Connector Definitions, sotto l'intestazione di colonna Actions, fare clic su Delete per il nome della definizione del connettore indice che si desidera rimuovere.
  3. Nella pagina Index Connector Delete fare clic su Delete.

In questa pagina