Utilizzare la data e le maschere URL del set di menu di ricerca per indicizzazione, le password, i tipi di contenuto, le connessioni, le definizioni dei moduli e i punti di ingresso URL.
La maggior parte dei siti Web ha un punto di ingresso principale o una home page che il cliente visita inizialmente. Questo punto di ingresso principale è l'indirizzo URL dal quale il robot di ricerca inizia la ricerca per indicizzazione. Tuttavia, se il sito Web contiene più domini o sottodomini oppure se parti del sito non sono collegate dal punto di ingresso principale, potete utilizzare i punti di ingresso URL per aggiungere altri punti di ingresso.
Vengono indicizzate tutte le pagine del sito Web al di sotto di ciascun punto di ingresso URL specificato. Potete combinare punti di immissione URL con maschere per controllare esattamente quali porzioni di un sito Web volete indicizzare. È necessario rigenerare l’indice del sito Web prima che gli effetti delle impostazioni dei punti di accesso URL siano visibili ai clienti.
Il punto di ingresso principale è in genere l’URL del sito Web che si desidera indicizzare e cercare. Questo punto di ingresso principale viene configurato in Impostazioni account.
Consultate Configurazione delle impostazioni dell'account.
Dopo aver specificato il punto di ingresso dell’URL principale, potete specificare facoltativamente altri punti di ingresso che desiderate spostare per indicizzazione in ordine. Nella maggior parte dei casi si specificano punti di ingresso aggiuntivi per le pagine Web che non sono collegate da pagine sotto il punto di ingresso principale. Specificate punti di ingresso aggiuntivi quando il sito Web si estende su più domini, come nell’esempio seguente:
https://www.domain.com/
https://www.domain.com/not_linked/but_search_me_too/
https://more.domain.com/
È possibile assegnare a ciascun punto di ingresso una o più delle seguenti parole chiave separate da spazi nella tabella seguente. Queste parole chiave influiscono sulla modalità di indicizzazione della pagina.
Importante: Assicurarsi di separare una determinata parola chiave dal punto di ingresso e l'una dall'altra tramite uno spazio; una virgola non è un separatore valido.
Parola chiave |
Descrizione |
---|---|
noindex |
Se non si desidera indicizzare il testo nella pagina del punto di ingresso, ma si desidera seguire i collegamenti della pagina, aggiungere
Separate la parola chiave dal punto di ingresso con uno spazio come nell'esempio seguente: Questa parola chiave equivale a un tag meta robot con
|
nofollow |
Se si desidera indicizzare il testo nella pagina del punto di ingresso ma non si desidera seguire i collegamenti della pagina, aggiungere
Separate la parola chiave dal punto di ingresso con uno spazio come nell'esempio seguente: Questa parola chiave equivale a un tag meta robot con
|
form |
Quando il punto di ingresso è una pagina di login,
|
Vedere anche Informazioni sui tipi di contenuto.
Vedere anche Informazioni sul connettore indice.
Se il sito Web contiene più domini o sottodomini e desiderate che vengano sottoposti a ricerca per indicizzazione, potete utilizzare i punti di ingresso URL per aggiungere altri URL.
Per impostare il punto di accesso dell'URL principale del sito Web, utilizzate le Impostazioni account.
Consultate Configurazione delle impostazioni dell'account.
Per aggiungere più punti di ingresso URL da indicizzare
Scegliere Settings > Crawling > URL Entrypoints dal menu del prodotto.
Nella pagina URL Entrypoints, nel campo Entrypoints immettere un indirizzo URL per riga.
(Facoltativo) Nell'elenco a discesa Add Index Connector Configurations, selezionare un connettore indice da aggiungere come punto di ingresso per l'indicizzazione.
L'elenco a discesa è disponibile solo se in precedenza sono state aggiunte una o più definizioni di connettore indice.
Clic Save Changes.
(Facoltativo) Effettuate una delle seguenti operazioni:
Fare clic su History per annullare le modifiche apportate.
Vedere Utilizzo dell'opzione Cronologia.
Clic Live.
Clic Push Live.
Vedere Invio live delle impostazioni dell'area di visualizzazione.
Le maschere URL sono modelli che determinano quale dei vostri siti Web documenta gli indici dei robot di ricerca o meno.
Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.
Vedere Configurazione di un indice incrementale di un sito Web in fase.
Di seguito sono riportati due tipi di maschere URL utilizzabili:
L'inclusione di maschere URL indica al robot di ricerca di indicizzare qualsiasi documento che corrisponda al pattern della maschera.
Le maschere URL di esclusione indicano al robot di ricerca di indicizzare i documenti corrispondenti.
Mentre il robot di ricerca viaggia da un collegamento a un collegamento attraverso il sito Web, incontra gli URL e cerca le maschere che corrispondono a tali URL. La prima corrispondenza determina se includere o escludere tale URL dall’indice. Se nessuna maschera corrisponde a un URL rilevato, tale URL viene eliminato dall'indice.
Includi maschere URL per gli URL del punto di ingresso vengono generati automaticamente. In questo modo tutti i documenti presenti sul sito Web verranno indicizzati. Comodamente si elimina anche con i link che "lasciano" il tuo sito web. Ad esempio, se una pagina indicizzata si collega a https://www.yahoo.com, il robot di ricerca non indicizza tale URL perché non corrisponde alla maschera di inclusione generata automaticamente dall’URL del punto di ingresso.
Ogni maschera URL specificata deve trovarsi su una riga separata.
La maschera può specificare una delle seguenti opzioni:
Un percorso completo come in https://www.mydomain.com/products.html
.
Un percorso parziale come in https://www.mydomain.com/products
.
URL che utilizza caratteri jolly come in https://www.mydomain.com/*.html
.
Un'espressione regolare (per utenti avanzati).
Per rendere una maschera un'espressione regolare, inserite la parola chiave regexp
tra il tipo di maschera ( exclude
o include
) e la maschera URL.
Di seguito è riportato un semplice esempio di maschera di esclusione URL:
exclude https://www.mydomain.com/photos
Poiché questo esempio è una maschera URL di esclusione, qualsiasi documento che corrisponda al pattern non viene indicizzato. Il pattern corrisponde a qualsiasi elemento rilevato, sia file che cartelle, in modo che https://www.mydomain.com/photos.html
e https://www.mydomain.com/photos/index.html
, entrambi corrispondenti all'URL di esclusione, non siano indicizzati. Per far corrispondere solo i file presenti nella cartella /photos/
, la maschera URL deve contenere una barra finale, come nell'esempio seguente:
exclude https://www.mydomain.com/photos/
L'esempio di maschera di esclusione seguente utilizza una carattere jolly. Indica al robot di ricerca di ignorare i file con l'estensione ".pdf". Il robot di ricerca non aggiunge questi file all'indice.
exclude *.pdf
Una semplice maschera URL include è la seguente:
include https://www.mydomain.com/news/
Vengono indicizzati solo i documenti collegati tramite una serie di collegamenti da un punto di ingresso dell’URL o utilizzati come punto di ingresso dell’URL. L'elenco esclusivo dell'URL di un documento come maschera URL inclusa non indicizza alcun documento non collegato. Per aggiungere documenti non collegati all’indice, potete usare la funzione Punti di ingresso URL.
Consultate Informazioni sui punti di ingresso URL.
L’inclusione di maschere e l’esclusione di maschere possono funzionare insieme. Potete escludere un’ampia parte del sito Web dall’indicizzazione creando una maschera URL esclusa e tuttavia includendo una o più delle pagine escluse con una maschera URL inclusa. Ad esempio, supponete che l’URL del punto di ingresso sia il seguente:
https://www.mydomain.com/photos/
Il robot di ricerca ricerca si sposta per indicizzazione e indicizza tutte le pagine in /photos/summer/
, /photos/spring/
e /photos/fall/
(supponendo che siano presenti collegamenti ad almeno una pagina in ciascuna directory dalla cartella photos
). Questo comportamento si verifica perché i percorsi di collegamento consentono al robot di ricerca di trovare i documenti nelle cartelle /summer/
, /spring/
e /fall/
e gli URL delle cartelle corrispondono alla maschera di inclusione generata automaticamente dall'URL del punto di ingresso.
Potete scegliere di escludere tutte le pagine della cartella /fall/
con una maschera URL di esclusione, come nell'esempio seguente:
exclude https://www.mydomain.com/photos/fall/
Oppure, includete solo /photos/fall/redleaves4.html
come parte dell'indice con la seguente maschera URL:
include https://www.mydomain.com/photos/fall/redleaves4.html
Affinché i due esempi di maschera di cui sopra funzionino come previsto, la maschera di inclusione è elencata per prima, come illustrato di seguito:
include https://www.mydomain.com/photos/fall/redleaves4.html
exclude https://www.mydomain.com/photos/fall/
Poiché il robot di ricerca segue le indicazioni nell'ordine in cui sono elencate, il robot di ricerca prima include /photos/fall/redleaves4.html
, quindi esclude gli altri file nella cartella /fall
.
Se le istruzioni sono specificate nel modo opposto come indicato di seguito:
exclude https://www.mydomain.com/photos/fall/
include https://www.mydomain.com/photos/fall/redleaves4.html
/photos/fall/redleaves4.html
non è incluso, anche se la maschera specifica che è incluso.
Una maschera URL che viene visualizzata per prima ha sempre la precedenza su una maschera URL che viene visualizzata successivamente nelle impostazioni della maschera. Inoltre, se il robot di ricerca rileva una pagina che corrisponde a una maschera URL di inclusione e a una maschera URL di esclusione, la maschera elencata per prima ha sempre la precedenza.
Vedere Configurazione di un indice incrementale di un sito Web in fase.
È possibile qualificare ciascuna maschera con una o più parole chiave separate da spazi, che influiscono sulla modalità di indicizzazione delle pagine corrispondenti.
Una virgola non è valida come separatore tra la maschera e la parola chiave; potete usare solo degli spazi.
Parola chiave |
Descrizione |
---|---|
noindex |
Se non si desidera indicizzare il testo sulle pagine che corrispondono alla maschera URL, ma si desidera seguire i collegamenti alle pagine corrispondenti, aggiungere
L'esempio precedente specifica che il robot di ricerca segue tutti i collegamenti da file con
Estensione Il
La parola chiave |
nofollow |
Se desiderate indicizzare il testo sulle pagine che corrispondono alla maschera URL, ma non desiderate seguire i collegamenti della pagina corrispondente, aggiungete
Il
La parola chiave |
regexp |
Utilizzata sia per includere che per escludere le maschere. Qualsiasi maschera URL preceduta da
Il robot di ricerca esclude i file corrispondenti, come
Se avevi la seguente maschera URL con espressione regolare esclusa: Il robot di ricerca non deve includere alcun URL contenente un parametro CGI come
Se avete avuto i seguenti elementi includere una maschera URL con espressione regolare: Il robot di ricerca segue tutti i collegamenti da file con l'estensione ".swf". Il
La parola chiave Vedere Espressioni regolari . |
È possibile utilizzare URL Masks per definire quali parti del sito Web si desidera includere o meno nella ricerca per indicizzazione.
Utilizzate il campo Test URL Mask (Prova maschere URL) per verificare se un documento è incluso o meno dopo l'indicizzazione.
Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.
Vedere Configurazione di un indice incrementale di un sito Web in fase.
Per aggiungere maschere URL per indicizzare o non indicizzare parti del sito Web
Scegliere Settings > Crawling > URL Masks dal menu del prodotto.
(Facoltativo) Nella pagina URL Masks, nel campo Test URL Masks, immettere una maschera URL di prova dal sito Web, quindi fare clic su Test.
Nel campo URL Masks, digitate include
(per aggiungere un sito Web che si desidera sottoporre a ricerca per indicizzazione) oppure exclude
(per impedire che un sito Web venga sottoposto a ricerca per indicizzazione e indicizzazione), seguito dall’indirizzo della maschera URL.
Immettete un indirizzo maschera URL per riga. Esempio:
include https://www.mycompany.com/summer
include https://www.mycompany.com/spring
exclude regexp .*\.xml
exclude https://www.mycompany.com/fall
Clic Save Changes.
(Facoltativo) Effettuate una delle seguenti operazioni:
Fare clic su History per annullare le modifiche apportate.
Vedere Utilizzo dell'opzione Cronologia.
Clic Live.
Clic Push Live.
Vedere Invio live delle impostazioni dell'area di visualizzazione.
Potete utilizzare le maschere data per includere o escludere i file dai risultati di ricerca in base alla pagina del file.
Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.
Vedere Configurazione di un indice incrementale di un sito Web in fase.
Di seguito sono riportati due tipi di maschere data utilizzabili:
Includi maschere data ("includi giorni" e "includi data")
Includi file di indice delle maschere di data con data corrispondente o precedente alla data specificata.
Escludere le maschere di data ("giorni di esclusione" e "data di esclusione")
Escludere i file di indice delle maschere di data con data precedente o alla data specificata.
Per impostazione predefinita, la data del file è determinata dalle informazioni del tag meta. Se non viene trovato alcun tag Meta, la data di un file viene determinata dall’intestazione HTTP ricevuta dal server quando il robot di ricerca scarica un file.
Ogni maschera data specificata deve trovarsi su una riga separata.
La maschera può specificare una delle seguenti opzioni:
https://www.mydomain.com/products.html
https://www.mydomain.com/products
https://www.mydomain.com/*.html
regexp
prima dell'URL.Entrambe le maschere di data includono ed escludono può specificare una data in uno dei due modi seguenti. Le maschere vengono applicate solo se i file corrispondenti sono stati creati alla data specificata o prima di essa:
Numero di giorni. Ad esempio, supponiamo che la maschera data sia la seguente:
exclude-days 30 https://www.mydomain.com/docs/archive/)
Il numero di giorni specificati viene conteggiato di nuovo. Se il file è datato in data o prima della data di arrivo, la maschera viene applicata.
Una data effettiva che utilizza il formato AAAA-MM-GG. Ad esempio, supponiamo che la maschera data sia la seguente:
include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
Se il documento corrispondente è datato alla data specificata o prima di essa, viene applicata la maschera data.
Di seguito è riportato un semplice esempio di maschera per date di esclusione:
exclude-days 90 https://www.mydomain.com/docs/archive
Poiché si tratta di una maschera data di esclusione, qualsiasi file che corrisponda al pattern non viene indicizzato ed ha 90 giorni o meno. Quando si esclude un documento, il testo non viene indicizzato e non vengono seguiti collegamenti da tale file. Il file viene effettivamente ignorato. In questo esempio, sia i file che le cartelle potrebbero corrispondere al pattern URL specificato. Tenere presente che sia https://www.mydomain.com/docs/archive.html
che https://www.mydomain.com/docs/archive/index.html
corrispondono al pattern e non sono indicizzati se hanno 90 giorni di età o meno. Per far corrispondere solo i file presenti nella cartella /docs/archive/
, la maschera data deve contenere una barra finale, come illustrato di seguito:
exclude-days 90 https://www.mydomain.com/docs/archive/
Le maschere data possono essere utilizzate anche con caratteri jolly. La seguente maschera di esclusione indica al robot di ricerca di ignorare i file con estensione ".pdf" che sono datati il o prima del 2011-02-15. Il robot di ricerca non aggiunge nessun file corrispondente all'indice.
exclude-date 2011-02-15 *.pdf
Includi maschera data ha un aspetto simile, all'indice vengono aggiunti solo i file corrispondenti. L'esempio seguente include maschera data indica al robot di ricerca di indicizzare il testo da qualsiasi file che abbiano zero giorni di età o meno nell'area /docs/archive/manual/
del sito Web.
include-days 0 https://www.mydomain.com/docs/archive/manual/
L’inclusione di maschere e l’esclusione di maschere possono funzionare insieme. Ad esempio, potete escludere un’ampia porzione del sito Web dall’indicizzazione creando una maschera per date di esclusione, ma includendo una o più di quelle pagine escluse con una maschera URL di inclusione. Se l’URL di ingresso è il seguente:
https://www.mydomain.com/archive/
Il robot di ricerca si sposta per indicizzazione e indicizza tutte le pagine in /archive/summer/
, /archive/spring/
e /archive/fall/
(supponendo che siano presenti collegamenti ad almeno una pagina in ciascuna cartella dalla cartella archive
). Questo comportamento si verifica perché i percorsi di collegamento consentono al robot di ricerca di "trovare" i file nelle cartelle /summer/
, /spring/
e /fall/
e gli URL delle cartelle corrispondono alla maschera di inclusione generata automaticamente dall'URL del punto di ingresso.
Consultate Informazioni sui punti di ingresso URL.
Consultate Configurazione delle impostazioni dell'account.
Potete scegliere di escludere tutte le pagine con più di 90 giorni nella cartella /fall/
con una maschera data di esclusione come illustrato di seguito:
exclude-days 90 https://www.mydomain.com/archive/fall/
È possibile includere selettivamente solo /archive/fall/index.html
(indipendentemente dall'età, ovvero dalla corrispondenza tra file di 0 giorni o versioni precedenti) come parte dell'indice con la seguente maschera data:
include-days 0 https://www.mydomain.com/archive/fall/index.html
Affinché i due esempi di maschera di cui sopra funzionino come previsto, è necessario elencare prima la maschera di inclusione, come illustrato di seguito:
include-days 0 https://www.mydomain.com/archive/fall/index.html
exclude-days 90 https://www.mydomain.com/archive/fall/
Poiché il robot di ricerca segue le indicazioni nell'ordine in cui sono specificate, il robot di ricerca prima include /archive/fall/index.html
, e poi esclude gli altri file nella cartella /fall
.
Se le istruzioni sono specificate nel modo opposto come indicato di seguito:
exclude-days 90 https://www.mydomain.com/archive/fall/
include-days 0 https://www.mydomain.com/archive/fall/index.html
Quindi /archive/fall/index.html
non è incluso, anche se la maschera specifica che dovrebbe essere. Una maschera data che compare per prima ha sempre la precedenza su una maschera data che potrebbe essere visualizzata successivamente nelle impostazioni della maschera. Inoltre, se il robot di ricerca rileva una pagina che corrisponde sia a una maschera data di inclusione che a una maschera data di esclusione, la maschera elencata per prima ha sempre la precedenza.
Vedere Configurazione di un indice incrementale di un sito Web in fase.
È possibile qualificare ciascuna maschera con una o più parole chiave separate da spazi, che influiscono sulla modalità di indicizzazione delle pagine corrispondenti.
Una virgola non è valida come separatore tra la maschera e la parola chiave; potete usare solo degli spazi.
Parola chiave |
Descrizione |
---|---|
noindex |
Se non si desidera indicizzare il testo nelle pagine con data corrispondente o precedente alla data specificata dalla maschera di inclusione, aggiungere
Separate la parola chiave dalla maschera con uno spazio. L'esempio precedente specifica che il robot di ricerca segue tutti i collegamenti da file con estensione ".swf" che hanno un'età di 10 giorni o più. Tuttavia, disabilita l'indicizzazione di tutto il testo contenuto in tali file. Potete verificare che il testo per i file meno recenti non sia indicizzato ma segua comunque tutti i collegamenti da tali file. In questi casi, utilizzate una maschera data di inclusione con la parola chiave "noindex" invece di usare una maschera data di esclusione. |
nofollow |
Se desiderate indicizzare il testo sulle pagine con data corrispondente o precedente alla data specificata dalla maschera di inclusione, ma non desiderate seguire i collegamenti della pagina corrispondente, aggiungete
Separate la parola chiave dalla maschera con uno spazio. Il
La parola chiave |
data server |
Utilizzata sia per includere che per escludere le maschere. Il robot di ricerca in genere scarica e analizza ogni file prima di controllare le maschere data. Questo comportamento si verifica perché alcuni tipi di file possono specificare una data all'interno del file stesso. Ad esempio, un documento HTML può includere tag meta che impostano la data del file. Se si desidera escludere molti file in base alla data e non si desidera caricare un carico inutile sui server, è possibile utilizzare
Questa parola chiave indica al robot di ricerca di considerare attendibile la data del file restituito dal server invece di analizzare ciascun file. Ad esempio, la maschera data di esclusione seguente ignora le pagine che corrispondono all’URL se i documenti sono di 90 giorni o più, in base alla data restituita dal server nelle intestazioni HTTP: Se la data restituita dal server è di 90 giorni o più,
Non utilizzare
|
regexp |
Utilizzate sia per includere che escludere le maschere. Qualsiasi maschera data preceduta da
Se il robot di ricerca rileva file che corrispondono a una maschera data con espressione regolare esclusa, non indicizza tali file. Se il robot di ricerca rileva file che corrispondono a una maschera data con espressione regolare, indicizza tali documenti. Ad esempio, si supponga di disporre della maschera data seguente: La maschera indica al robot di ricerca di escludere i file corrispondenti che abbiano una durata pari o superiore a 180 giorni. ovvero file che contengono la parola "archivio" nell’URL. Vedere Espressioni regolari . |
Potete utilizzare le maschere data per includere o escludere i file dai risultati della ricerca dei clienti in base all’età dei file.
Utilizzare i campi Test Date e Test URL per verificare se un file è incluso o meno dopo l'indicizzazione.
Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.
Vedere Configurazione di un indice incrementale di un sito Web in fase.
Per aggiungere maschere di data per indicizzare o non indicizzare parti del sito Web
Scegliere Settings > Crawling > Date Masks dal menu del prodotto.
(Facoltativo) Nella pagina Date Masks, nel campo Test Date immettere una data formattata come AAAA-MM-GG (ad esempio, 2011-07-25
); nel campo Test URL, inserite una maschera URL dal sito Web e fate clic su Test.
Nel campo Date Masks, immettere un indirizzo maschera data per riga.
Clic Save Changes.
(Facoltativo) Effettuate una delle seguenti operazioni:
Fare clic su History per annullare le modifiche apportate.
Vedere Utilizzo dell'opzione Cronologia.
Clic Live.
Clic Push Live.
Vedere Invio live delle impostazioni dell'area di visualizzazione.
Per accedere a porzioni del sito Web protette dall'autenticazione di base HTTP, potete aggiungere una o più password.
Prima che gli effetti delle impostazioni Password siano visibili ai clienti, dovete ricreare l'indice del sito.
Vedere Configurazione di un indice incrementale di un sito Web in fase.
Nella pagina Passwords, digitate ogni password su una sola riga. La password è composta da un URL o un realm, un nome utente e una password, come nell'esempio seguente:
https://www.mydomain.com/ myname mypassword
Invece di usare un percorso URL, come sopra, potete anche specificare un realm.
Per determinare l'area di autenticazione corretta da utilizzare, aprire una pagina Web protetta da password con un browser e consultare la finestra di dialogo "Immettere la password di rete".
Il nome dell'area di autenticazione, in questo caso, è "Area del sito personale".
Utilizzando il nome dell'area di autenticazione riportato sopra, la password potrebbe essere simile a quella riportata di seguito:
My Site Realm myusername mypassword
Se il sito Web ha più aree di autenticazione, è possibile creare più password immettendo un nome utente e una password per ogni area di autenticazione su una riga separata, come nell'esempio seguente:
Realm1 name1 password1
Realm2 name2 password2
Realm3 name3 password3
È possibile utilizzare password che contengono URL o aree di autenticazione diverse, in modo che l'elenco delle password abbia l'aspetto seguente:
Realm1 name1 password1
https://www.mysite.com/path1/path2 name2 password2
Realm3 name3 password3
Realm4 name4 password4
https://www.mysite.com/path1/path5 name5 password5
https://www.mysite.com/path6 name6 password6
Nell'elenco di cui sopra, viene utilizzata la prima password che contiene un realm o un URL corrispondente alla richiesta di autenticazione del server. Anche se il file in https://www.mysite.com/path1/path2/index.html
è in Realm3
, ad esempio, vengono utilizzati name2
e password2
perché la password definita con l'URL è elencata sopra a quella definita con l'area di autenticazione.
Potete utilizzare Password per accedere alle aree protette da password del sito Web a scopo di ricerca per indicizzazione e indicizzazione.
Prima che gli effetti della password siano visibili ai clienti, accertatevi di ricreare l'indice del sito
Vedere Configurazione di un indice incrementale di un sito Web in fase.
Aggiunta di password per l'accesso alle aree del sito Web che richiedono l'autenticazione
Scegliere Settings > Crawling > Passwords dal menu del prodotto.
Nella pagina Passwords, nel campo Passwords immettere un realm o un URL e il nome utente e la password associati, separati da uno spazio.
Esempio di password di un realm e di una password URL su righe separate:
Realm1 name1 password1
https://www.mysite.com/path1/path2 name2 password2
Aggiungete una sola password per riga.
Clic Save Changes.
(Facoltativo) Effettuate una delle seguenti operazioni:
Fare clic su History per annullare le modifiche apportate.
Vedere Utilizzo dell'opzione Cronologia.
Clic Live.
Clic Push Live.
Vedere Invio live delle impostazioni dell'area di visualizzazione.
È possibile utilizzare Content Types per selezionare i tipi di file che si desidera sottoporre a ricerca per indicizzazione e indicizzare per questo account.
I tipi di contenuto che è possibile scegliere per la ricerca per indicizzazione e per indicizzazione includono documenti PDF, documenti di testo, filmati Flash di Adobe, file da applicazioni Microsoft Office come Word, Excel e Powerpoint e testo in file MP3. Il testo che si trova all’interno dei tipi di contenuto selezionati viene cercato insieme a tutto il testo presente nel sito Web.
Prima che gli effetti delle impostazioni Tipi di contenuto siano visibili ai clienti, dovete ricreare l'indice del sito.
Vedere Configurazione di un indice incrementale di un sito Web in fase.
Se selezionate l'opzione Text in MP3 Music Files nella pagina Content Types, un file MP3 viene sottoposto a ricerca per indicizzazione e indicizzato in uno dei due modi seguenti. Il primo e più comune metodo è rappresentato da un tag href di ancoraggio in un file HTML come illustrato di seguito:
<a href="MP3-file-URL"></a>
Il secondo modo consiste nell’inserire l’URL del file MP3 come punto di ingresso dell’URL.
Consultate Informazioni sui punti di ingresso URL.
Un file MP3 viene riconosciuto dal tipo MIME "audio/mpeg".
Tenete presente che le dimensioni dei file musicali MP3 possono essere piuttosto grandi, anche se in genere contengono solo una piccola quantità di testo. Ad esempio, i file MP3 possono memorizzare facoltativamente elementi quali il nome dell'album, il nome dell'artista, il titolo della canzone, il genere della canzone, l'anno di rilascio e un commento. Queste informazioni vengono memorizzate alla fine del file in quello che viene chiamato TAG. I file MP3 contenenti informazioni TAG sono indicizzati nel modo seguente:
Ogni file MP3 che viene sottoposto a ricerca per indicizzazione e con scorrimento nel sito Web viene contato come una pagina.
Se il sito Web contiene molti file MP3 di grandi dimensioni, potete superare il limite di byte di indicizzazione per il vostro account. In questo caso, è possibile deselezionare Text in MP3 Music Files nella pagina Content Types per impedire l'indicizzazione di tutti i file MP3 sul sito Web.
Se desiderate solo impedire l’indicizzazione di alcuni file MP3 sul vostro sito Web, potete effettuare una delle seguenti operazioni:
Circondare i tag di ancoraggio che collegano ai file MP3 con i tag <nofollow>
e </nofollow>
. Il robot di ricerca non segue i collegamenti tra tali tag.
Aggiungete gli URL dei file MP3 come maschere di esclusione.
Consultate Le maschere URL.
È possibile utilizzare Content Types per selezionare i tipi di file che si desidera sottoporre a ricerca per indicizzazione e indicizzare per questo account.
I tipi di contenuto che è possibile scegliere per la ricerca per indicizzazione e per indicizzazione includono documenti PDF, documenti di testo, filmati Flash di Adobe, file da applicazioni Microsoft Office come Word, Excel e Powerpoint e testo in file MP3. Il testo che si trova all’interno dei tipi di contenuto selezionati viene cercato insieme a tutto il testo presente nel sito Web.
Prima che gli effetti delle impostazioni Tipi di contenuto siano visibili ai clienti, dovete ricreare l'indice del sito.
Vedere Configurazione di un indice incrementale di un sito Web in fase.
Per eseguire ricerche per indicizzazione e indicizzazione di file MP3 cinesi, giapponesi o coreani, completare i passaggi descritti di seguito. Quindi, in Settings > Metadata > Injections, specificare il set di caratteri utilizzato per codificare i file MP3.
Vedere Informazioni sulle iniezioni.
Per selezionare i tipi di contenuto da sottoporre a ricerca per indicizzazione e
Scegliere Settings > Crawling > Content Types dal menu del prodotto.
Nella pagina Content Types verificare i tipi di file che si desidera sottoporre a ricerca per indicizzazione e indicizzare sul sito Web.
Clic Save Changes.
(Facoltativo) Effettuate una delle seguenti operazioni:
Fare clic su History per annullare le modifiche apportate.
Vedere Utilizzo dell'opzione Cronologia.
Clic Live.
Clic Push Live.
Vedere Invio live delle impostazioni dell'area di visualizzazione.
È possibile utilizzare Connessioni per aggiungere fino a dieci connessioni HTTP utilizzate dal robot di ricerca per indicizzare il sito Web.
Aumentare il numero di connessioni può ridurre notevolmente il tempo necessario per completare una ricerca per indicizzazione e un indice. Tuttavia, tenete presente che ogni connessione aggiuntiva aumenta il carico sul server.
È possibile ridurre il tempo necessario per indicizzare il sito Web utilizzando Connessioni per aumentare il numero di connessioni HTTP simultanee utilizzate dal crawler. È possibile aggiungere fino a dieci connessioni.
Tenete presente che ogni connessione aggiuntiva aumenta il carico inserito sul server.
Per aggiungere connessioni per aumentare la velocità di indicizzazione
Scegliere Settings > Crawling > Connections dal menu del prodotto.
Nella pagina Parallel Indexing Connections, nel campo Number of Connections immettere il numero di connessioni (1-10) che si desidera aggiungere.
Clic Save Changes.
(Facoltativo) Effettuate una delle seguenti operazioni:
Fare clic su History per annullare le modifiche apportate.
Vedere Utilizzo dell'opzione Cronologia.
Clic Live.
Clic Push Live.
Vedere Invio live delle impostazioni dell'area di visualizzazione.
È possibile utilizzare l'opzione Invia modulo per riconoscere ed elaborare i moduli sul sito Web.
Durante la ricerca per indicizzazione e l'indicizzazione del sito Web, ogni modulo rilevato viene confrontato con le definizioni del modulo aggiunte. Se un modulo corrisponde alla definizione di un modulo, il modulo viene inviato per l'indicizzazione. Se un modulo corrisponde a più definizioni, viene inviato una volta per ciascuna definizione corrispondente.
È possibile utilizzare Form Submission per elaborare moduli riconosciuti sul sito Web a scopo di indicizzazione.
Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle modifiche siano visibili ai clienti.
Vedere Configurazione di un indice incrementale di un sito Web in fase.
Aggiunta di definizioni di moduli per l'indicizzazione dei moduli nel sito Web
Scegliere Settings > Crawling > Form Submission dal menu del prodotto.
Nella pagina Form Submission fare clic su Add New Form.
Nella pagina Add Form Definition, impostare le opzioni Form Recognition e Form Submission.
Le cinque opzioni nella sezione Form Recognition della pagina Form Definition vengono utilizzate per identificare i moduli nelle pagine Web che possono essere elaborati.
Le tre opzioni della sezione Form Submission vengono utilizzate per specificare i parametri e i valori inviati con un modulo al server Web.
Immettere un parametro di riconoscimento o di invio per riga. Ogni parametro deve includere un nome e un valore.
Opzione |
Descrizione |
---|---|
Riconoscimento dei moduli |
|
Maschera URL pagina |
Identificare la pagina Web o le pagine che contengono il modulo. Per identificare un modulo che viene visualizzato su una singola pagina, immettete l’URL della pagina come nell’esempio seguente: Per identificare i moduli che vengono visualizzati su più pagine, specificare una maschera URL che utilizza i caratteri jolly per descrivere le pagine. Per identificare i moduli incontrati in qualsiasi pagina ASP in È inoltre possibile utilizzare un'espressione regolare per identificare più pagine. È sufficiente specificare
|
URL azione |
Identifica l’attributo action del
Tag Come la maschera URL pagina, la maschera URL azione può assumere la forma di un singolo URL, un URL con caratteri jolly o un'espressione regolare. La maschera URL può essere una delle seguenti:
Se non si desidera indicizzare il testo nelle pagine identificate da una maschera URL o da una maschera URL azione, oppure se non si desidera che i collegamenti siano seguiti in tali pagine, è possibile utilizzare la
Consultate I punti di ingresso URL . Consultate Le maschere URL . |
Maschera nome modulo |
Identifica i moduli se il
I tag È possibile utilizzare un nome semplice (
In genere è possibile lasciare vuoto questo campo perché i moduli in genere non hanno un attributo nome. |
Maschera ID modulo |
Identifica i moduli se il
I tag È possibile utilizzare un nome semplice (
In genere è possibile lasciare vuoto questo campo perché i moduli in genere non hanno un attributo nome. |
Parametri |
Identificare i moduli che contengono o non contengono parametri denominati con un valore specifico. Ad esempio, per identificare un modulo che contiene un parametro e-mail preimpostato su rick_brough@mydomain.com, un parametro password, ma non un parametro first-name, è necessario specificare le seguenti impostazioni di parametro, una per riga: |
Invio modulo |
|
URL azione di esclusione |
Specificare se la destinazione dell'invio del modulo è diversa da quella specificata nell'attributo action del modulo. Ad esempio, è possibile utilizzare questa opzione quando il modulo viene inviato tramite una funzione JavaScript che crea un valore URL diverso da quello trovato nel modulo. |
Metodo Override |
Specificare quando la destinazione dell'invio del modulo è diversa da quella utilizzata nell'attributo action del modulo e quando il codice JavaScript di invio ha modificato il metodo. I valori predefiniti per tutti i parametri del modulo (
|
Parametri |
È possibile assegnare un prefisso ai parametri di invio del modulo
Quando si assegna un prefisso a un parametro con
Ad esempio, si supponga di voler inviare i seguenti parametri:
Il parametro di invio del modulo sarà simile al seguente: L'attributo metodo della variabile
Il tag Se
Il tag |
Clic Add.
(Facoltativo) Effettuate una delle seguenti operazioni:
Clic Live.
Clic Push Live.
Vedere Invio live delle impostazioni dell'area di visualizzazione.
È possibile modificare una definizione di modulo esistente se un modulo sul sito Web è stato modificato o se è necessario modificarla.
Tenere presente che nella pagina Form Submission non è presente alcuna funzione History per ripristinare le modifiche apportate alla definizione di un modulo.
Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle modifiche siano visibili ai clienti.
Vedere Configurazione di un indice incrementale di un sito Web in fase.
Per modificare una definizione di modulo
Scegliere Settings > Crawling > Form Submission dal menu del prodotto.
Nella pagina Form Submission, fare clic su Edit a destra della definizione di un modulo da aggiornare.
Nella pagina Edit Form Definition, impostare le opzioni Form Recognition e Form Submission.
Vedere la tabella delle opzioni in Aggiunta di definizioni di moduli per l'indicizzazione dei moduli nel sito Web.
Clic Save Changes.
(Facoltativo) Effettuate una delle seguenti operazioni:
Clic Live.
Clic Push Live.
Vedere Invio live delle impostazioni dell'area di visualizzazione.
È possibile eliminare una definizione di modulo esistente se il modulo non esiste più sul sito Web o se non si desidera più elaborare e indicizzare un modulo specifico.
Tenere presente che nella pagina Form Submission non è presente alcuna funzione History per ripristinare le modifiche apportate alla definizione di un modulo.
Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle modifiche siano visibili ai clienti.
Vedere Configurazione di un indice incrementale di un sito Web in fase.
Per eliminare una definizione di modulo
Scegliere Settings > Crawling > Form Submission dal menu del prodotto.
Nella pagina Form Submission, fare clic su Delete a destra della definizione di un modulo che si desidera rimuovere.
Assicurarsi di scegliere la definizione corretta del modulo da eliminare. Non è disponibile alcuna finestra di dialogo di conferma dell'eliminazione quando si fa clic su Delete nel passaggio successivo.
Nella pagina Delete Form Definition fare clic su Delete.
(Facoltativo) Effettuate una delle seguenti operazioni:
Clic Live.
Clic Push Live.
Vedere Invio live delle impostazioni dell'area di visualizzazione.
Utilizzate Index Connector per definire origini di input aggiuntive per l'indicizzazione di pagine XML o qualsiasi tipo di feed.
È possibile utilizzare un'origine di input di feed di dati per accedere al contenuto memorizzato in un modulo diverso da quello di solito scoperto in un sito Web utilizzando uno dei metodi disponibili per la ricerca per indicizzazione. Ogni documento sottoposto a ricerca per indicizzazione e indicizzato corrisponde direttamente a una pagina di contenuto del sito Web. Tuttavia, un feed di dati proviene da un documento XML o da un file di testo delimitato da virgole o da tabulazioni e contiene le informazioni sul contenuto da indicizzare.
Un'origine dati XML è costituita da stanzas XML, o record, che contengono informazioni corrispondenti a singoli documenti. Questi singoli documenti vengono aggiunti all’indice. Un feed di dati di testo contiene singoli record delimitati da nuove righe che corrispondono a singoli documenti. All’indice vengono aggiunti anche questi singoli documenti. In entrambi i casi, una configurazione di connettore indice descrive come interpretare il feed. Ogni configurazione descrive la posizione del file e la modalità di accesso dei server. La configurazione descrive anche le informazioni sulla mappatura. In altre parole, in che modo gli elementi di ciascun record vengono utilizzati per compilare i campi di metadati nell'indice risultante.
Dopo aver aggiunto una definizione del connettore indice alla pagina Staged Index Connector Definitions, è possibile modificare qualsiasi impostazione di configurazione, tranne per i valori Nome o Tipo.
La pagina Index Connector contiene le informazioni seguenti:
Nome dei connettori di indice definiti configurati e aggiunti dall'utente.
Uno dei seguenti tipi di origini dati per ciascun connettore aggiunto:
Indica se il connettore è abilitato o meno per la ricerca per indicizzazione successiva e se l'indicizzazione è stata completata.
Indirizzo dell'origine dati.
Vedere anche Informazioni sul connettore indice
Passaggio |
Processo |
Descrizione |
---|---|---|
1 |
Scarica l'origine dati. |
Per le configurazioni di testo e feed, si tratta di un semplice download di file. |
2 |
Suddivide l'origine dati scaricata in singoli pseudo-documenti. |
Per Testo , ogni riga di testo delimitata da una nuova riga corrisponde a un singolo documento ed è analizzata utilizzando il delimitatore specificato, ad esempio una virgola o una tabulazione. Per Feed , i dati di ciascun documento vengono estratti utilizzando un pattern di espressione regolare nel seguente modulo: Utilizzando Mappa nella pagina Connettore indice Aggiungere , creare una copia memorizzata nella cache dei dati e quindi creare un elenco di collegamenti per il crawler. I dati vengono memorizzati in una cache locale e compilati con i campi configurati. I dati analizzati vengono scritti nella cache locale. Questa cache viene letta in seguito per creare i documenti HTML semplici necessari al crawler. Ad esempio, L'elemento <title> viene generato solo quando esiste una mappatura al campo di metadati Titolo. Analogamente, l'elemento <body> viene generato solo quando esiste una mappatura al campo di metadati Body. Importante: Non è supportato l'assegnazione di valori al tag meta dell'URL predefinito. Per tutte le altre mappature, vengono generati tag <meta> per ogni campo contenente dati presenti nel documento originale. I campi per ciascun documento vengono aggiunti alla cache. Per ogni documento scritto nella cache, viene generato anche un collegamento come negli esempi seguenti: La mappatura della configurazione deve avere un campo identificato come Chiave primaria. Questa mappatura costituisce la chiave utilizzata quando i dati vengono estratti dalla cache. Il crawler riconosce l'indice URL : prefisso dello schema, che può quindi accedere ai dati memorizzati nella cache locale. |
3 |
Eseguire la ricerca per indicizzazione del set di documenti memorizzato nella cache. |
Indice : I collegamenti vengono aggiunti all'elenco in sospeso del crawler e elaborati nella normale sequenza di ricerca per indicizzazione. |
4 |
Elabora ogni documento. |
Il valore chiave di ciascun collegamento corrisponde a una voce nella cache, pertanto la ricerca per indicizzazione di ciascun collegamento determina il recupero dei dati del documento dalla cache. Viene quindi "assemblato" in un’immagine HTML elaborata e aggiunta all’indice. |
Il processo di indicizzazione per la configurazione XML è simile al processo per le configurazioni di testo e feed con le seguenti modifiche ed eccezioni minori.
Poiché i documenti per le ricerche per indicizzazione XML sono già separati in singoli file, i passaggi 1 e 2 della tabella precedente non si applicano direttamente. Se si specifica un URL nei campi Host Address e File Path della pagina Index Connector Add, questo viene scaricato ed elaborato come normale documento HTML. Ci si aspetta che il documento di download contenga una raccolta di collegamenti <a href="{url}"...
, ciascuno dei quali punta a un documento XML elaborato. Tali collegamenti sono convertiti nel seguente modulo:
<a href="index:<ic_config_name>?url="{url}">
Ad esempio, se l'impostazione del Adobe restituiva i seguenti collegamenti:
<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a>
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>
Nella tabella precedente, il punto 3 non si applica e il punto 4 è completato al momento della ricerca per indicizzazione e dell'indicizzazione.
In alternativa, è possibile combinare i documenti XML con altri documenti scoperti naturalmente attraverso il processo di ricerca per indicizzazione. In tali casi, è possibile utilizzare le regole di riscrittura ( Settings > Rewrite Rules > Crawl List Retrieve URL Rules) per modificare gli URL dei documenti XML e indirizzarli al connettore indice.
Vedere Informazioni sulle regole URL per il recupero dell'elenco di ricerca per indicizzazione.
Ad esempio, supponiamo che si disponga della seguente regola di riscrittura:
RewriteRule (^http.*[.]xml$) index:Adobe?key=$1
Questa regola converte qualsiasi URL che termina con .xml
in un collegamento del connettore indice. Il crawler riconosce e riscrive lo schema URL index:
. Il processo di download viene reindirizzato attraverso il server Apache del connettore indice sul server principale. Ogni documento scaricato viene esaminato utilizzando lo stesso pattern di espressione regolare utilizzato con Feeds. In questo caso, tuttavia, il documento HTML prodotto non viene salvato nella cache. Viene invece consegnato direttamente al crawler per l’elaborazione dell’indice.
È possibile definire più configurazioni del connettore indice per qualsiasi account. Le configurazioni vengono aggiunte automaticamente all'elenco a discesa in Settings > Crawl > URL Entrypoints, come illustrato nella figura seguente:
Selezionando una configurazione dall’elenco a discesa, il valore viene aggiunto alla fine dell’elenco dei punti di immissione dell’URL.
Le configurazioni del connettore indice disattivate vengono aggiunte all'elenco a discesa, ma non è possibile selezionarle. Se si seleziona una seconda volta la stessa configurazione del connettore indice, questa viene aggiunta alla fine dell'elenco e l'istanza precedente viene eliminata.
Per specificare un punto di ingresso del connettore indice per una ricerca per indicizzazione incrementale, è possibile aggiungere voci utilizzando il formato seguente:
index:<indexconnector_configuration_name>
Il crawler elabora ogni voce aggiunta se questa si trova nella pagina Connettori indice ed è abilitata.
Nota: Poiché l'URL di ciascun documento è costruito utilizzando il nome di configurazione del connettore indice e la chiave primaria del documento, accertatevi di utilizzare lo stesso nome di configurazione del connettore indice durante l'esecuzione degli aggiornamenti incrementali! Ciò consente a Adobe Search&Promote di aggiornare correttamente i documenti indicizzati in precedenza.
Vedere anche Informazioni sui punti di entrata URL.
Utilizzo delle mappe di impostazione quando si aggiunge un connettore indice
Quando si aggiunge un connettore indice, è possibile utilizzare la funzione Setup Maps per scaricare un esempio dell'origine dati. I dati vengono esaminati per verificare l'idoneità all'indicizzazione.
Se si sceglie il tipo di connettore indice... |
La funzione Mappe di configurazione... |
---|---|
Testo |
Determina il valore del delimitatore provando prima le tabulazioni, poi le barre verticali ( | ) e infine virgole ( , ). Se prima di fare clic su Mappe di installazione avete già specificato un valore di delimitazione, tale valore viene utilizzato. Lo schema di adattamento ottimale si traduce nella compilazione dei campi Mappa con gli specchietti ai valori appropriati di Tag e Campo. Inoltre, viene visualizzato un esempio dei dati analizzati. Assicurarsi di selezionare Intestazioni nella prima riga se si è certi che il file include una riga di intestazione. La funzione di configurazione utilizza queste informazioni per identificare meglio le voci di mappa risultanti. |
Feed |
Scarica l'origine dati ed esegue un'analisi XML semplice. Gli identificatori XPath risultanti vengono visualizzati nelle righe Tag della tabella Mappa e valori simili nei campi. Queste righe identificano solo i dati disponibili e non generano le definizioni XPath più complesse. Tuttavia, è ancora utile perché descrive i dati XML e identifica i valori degli elementi tag.
Nota: La funzione Setup Maps scarica l’intera origine XML per eseguire l’analisi. Se il file è di grandi dimensioni, l'operazione potrebbe non riuscire. In caso di esito positivo, questa funzione identifica tutti gli elementi XPath possibili, molti dei quali non sono desiderabili da utilizzare. Accertatevi di esaminare le definizioni di mappa risultanti e rimuovere quelle non necessarie o desiderate. |
XML |
Scarica l’URL di un singolo documento rappresentativo, non l’elenco di collegamenti principale. Questo singolo documento viene analizzato utilizzando lo stesso meccanismo utilizzato con i feed, e i risultati vengono visualizzati. Prima di fare clic su Aggiungi per salvare la configurazione, assicurarsi di ripristinare l'URL al documento dell'elenco dei collegamenti principale. |
Importante: La funzione Mappe di installazione potrebbe non funzionare per set di dati XML di grandi dimensioni perché il parser di file tenta di leggere l’intero file in memoria. Di conseguenza, potrebbe verificarsi una condizione di memoria insufficiente. Tuttavia, quando lo stesso documento viene elaborato al momento dell'indicizzazione, non viene letto in memoria. Al contrario, i documenti di grandi dimensioni vengono elaborati "in movimento" e non vengono prima letti completamente nella memoria.
Utilizzo dell'anteprima quando si aggiunge un connettore indice
Al momento dell'aggiunta di un connettore indice, è possibile utilizzare la funzione Preview per convalidare i dati, come se li si stesse salvando. Esegue un test rispetto alla configurazione, ma senza salvare la configurazione nell'account. Il test accede all'origine dati configurata. Tuttavia, scrive la cache di download in un percorso temporaneo; non entra in conflitto con la cartella cache principale utilizzata dal crawler di indicizzazione.
Preview elabora solo un predefinito di cinque documenti, come controllato da Acct:IndexConnector-Preview-Max-Documents. I documenti visualizzati in anteprima vengono visualizzati nel modulo di origine, man mano che vengono presentati al crawler di indicizzazione. La visualizzazione è simile alla funzione "Visualizza origine" di un browser Web. Potete spostarvi tra i documenti del set di anteprima utilizzando i collegamenti di navigazione standard.
L'anteprima non supporta le configurazioni XML perché tali documenti vengono elaborati direttamente e non scaricati nella cache.
Ogni configurazione del connettore indice definisce un'origine dati e le mappature per collegare gli elementi dati definiti per tale origine ai campi di metadati nell'indice.
Prima che gli effetti della definizione nuova e abilitata siano visibili ai clienti, ricreate l’indice del sito.
Per aggiungere una definizione del connettore indice
Scegliere Settings > Crawling > Index Connector dal menu del prodotto.
Nella pagina Stage Index Connector Definitions fare clic su Add New Index Connector.
Nella pagina Index Connector Add, impostare le opzioni di connettore desiderate. Le opzioni disponibili dipendono dalla Type selezionata.
Opzione |
Descrizione |
---|---|
Nome |
Nome univoco della configurazione del connettore indice. È possibile utilizzare caratteri alfanumerici. Sono consentiti anche i caratteri "_" e "-". |
Tipo |
Origine dei dati. Il tipo di origine dati selezionato influisce sulle opzioni risultanti disponibili nella pagina Connettore indice Aggiungi . Potete scegliere tra le seguenti opzioni:
|
Tipo origine dati: Testo |
|
Abilitato |
Attiva la configurazione per la ricerca per indicizzazione e l’indicizzazione. In alternativa, è possibile disattivare la configurazione per impedire la ricerca per indicizzazione e l'indicizzazione. Nota: Le configurazioni del connettore indice disattivate vengono ignorate se sono presenti in un elenco entrypoint. |
Indirizzo host |
Specifica l'indirizzo dell'host del server in cui si trovano i dati. Se necessario, è possibile specificare un percorso URI completo (Uniform Resource Identifier) per il documento di origine dati, come negli esempi seguenti: oppure L'URI è suddiviso nelle voci appropriate per i campi Indirizzo host, Percorso file, Protocollo e, facoltativamente, Nome utente e Password. Specifica l'indirizzo IP o l'indirizzo URL del sistema host in cui viene trovato il file di origine dati. |
Percorso file |
Specifica il percorso del semplice file di testo semplice, delimitato da virgole, delimitato da tabulazioni o di altro formato delimitato in modo coerente. Il percorso è relativo alla radice dell'indirizzo host. |
Percorso file incrementale |
Specifica il percorso del semplice file di testo semplice, delimitato da virgole, delimitato da tabulazioni o di altro formato delimitato in modo coerente. Il percorso è relativo alla radice dell'indirizzo host. Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. Se non viene specificato alcun file, viene utilizzato il file elencato in Percorso file. |
Percorso file verticale |
Specifica il percorso del semplice file di testo semplice semplice, delimitato da virgole, delimitato da tabulazioni o di altro formato delimitato in modo coerente da utilizzare durante un aggiornamento verticale. Il percorso è relativo alla radice dell'indirizzo host. Questo file, se specificato, viene scaricato ed elaborato durante le operazioni di aggiornamento verticale. Nota: Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo. |
Elimina percorso file |
Specifica il percorso del file di testo semplice semplice semplice e semplice, contenente un singolo valore di identificatore del documento per riga. Il percorso è relativo alla radice dell'indirizzo host. Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. I valori trovati in questo file vengono utilizzati per creare richieste di eliminazione per rimuovere documenti indicizzati in precedenza. I valori in questo file devono corrispondere ai valori rilevati nei file Percorso file completo o Incrementale, nella colonna identificata come Chiave primaria . Nota: Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo. |
Protocollo |
Specifica il protocollo utilizzato per accedere al file. Potete scegliere tra le seguenti opzioni:
|
Timeout |
Specifica il timeout, in secondi, per le connessioni FTP, SFTP, HTTP o HTTPS. Il valore deve essere compreso tra 30 e 300. |
Tentativi |
Specifica il numero massimo di tentativi per connessioni FTP, SFTP, HTTP o HTTPS non riuscite. Il valore deve essere compreso tra 0 e 10. Un valore pari a zero (0) impedisce i tentativi. |
Codifica |
Specifica il sistema di codifica dei caratteri utilizzato nel file di origine dati specificato. |
Delimitatore |
Specifica il carattere da utilizzare per delineare ogni campo nel file di origine dati specificato. Il carattere virgola ( , ) è un esempio di carattere di delimitazione. La virgola funge da delimitatore di campo per separare i campi dati nel file di origine dati specificato. Selezionare la scheda ? per utilizzare il carattere di delimitazione della tabulazione orizzontale. |
Intestazioni nella prima riga |
Indica che la prima riga del file di origine dati contiene solo informazioni di intestazione, non dati. |
Numero minimo di documenti da indicizzare |
Se è impostato su un valore positivo, questo specifica il numero minimo di record previsti nel file scaricato. Se vengono ricevuti meno record, l'operazione di indice viene interrotta. Nota: Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo. Nota: Questa funzione è utilizzata solo durante le operazioni con l'indice completo. |
Mappa |
Specifica le mappature tra colonne e metadati utilizzando i numeri di colonna.
|
Tipo origine dati: Feed |
|
Abilitato |
Attiva la configurazione per la ricerca per indicizzazione e l’indicizzazione. In alternativa, è possibile disattivare la configurazione per impedire la ricerca per indicizzazione e l'indicizzazione. Nota: Le configurazioni del connettore indice disattivate vengono ignorate se sono presenti in un elenco entrypoint. |
Indirizzo host |
Specifica l'indirizzo IP o l'indirizzo URL del sistema host in cui viene trovato il file di origine dati. |
Percorso file |
Specifica il percorso del documento XML principale che contiene più "righe" di informazioni. Il percorso è relativo alla radice dell'indirizzo host. |
Percorso file incrementale |
Specifica il percorso del documento XML incrementale che contiene più "righe" di informazioni. Il percorso è relativo alla radice dell'indirizzo host. Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. Se non viene specificato alcun file, viene utilizzato il file elencato in Percorso file. |
Percorso file verticale |
Specifica il percorso del documento XML che contiene più "righe" di informazioni sparse da utilizzare durante un aggiornamento verticale. Il percorso è relativo alla radice dell'indirizzo host. Questo file, se specificato, viene scaricato ed elaborato durante le operazioni di aggiornamento verticale. Nota: Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo. |
Elimina percorso file |
Specifica il percorso del file di testo semplice semplice semplice e semplice, contenente un singolo valore di identificatore del documento per riga. Il percorso è relativo alla radice dell'indirizzo host. Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. I valori trovati in questo file vengono utilizzati per creare richieste di eliminazione per rimuovere documenti indicizzati in precedenza. I valori in questo file devono corrispondere ai valori rilevati nei file Percorso file completo o Incrementale, nella colonna identificata come Chiave primaria . Nota: Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo. |
Protocollo |
Specifica il protocollo utilizzato per accedere al file. Potete scegliere tra le seguenti opzioni:
|
Nome |
Identifica l'elemento XML che è possibile utilizzare per identificare singole righe XML nel file di origine dati specificato. Ad esempio, nel seguente frammento Feed di un documento XML di un Adobe , il valore del tag elemento è record : |
Numero minimo di documenti da indicizzare |
Se è impostato su un valore positivo, questo specifica il numero minimo di record previsti nel file scaricato. Se vengono ricevuti meno record, l'operazione di indice viene interrotta. Nota: Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo. Nota: Questa funzione è utilizzata solo durante le operazioni con l'indice completo. |
Mappa |
Consente di specificare le mappature XML da elemento a metadati utilizzando le espressioni XPath.
|
Tipo origine dati: XML |
|
Abilitato |
Attiva la configurazione per la ricerca per indicizzazione e l’indicizzazione. In alternativa, è possibile disattivare la configurazione per impedire la ricerca per indicizzazione e l'indicizzazione. Nota: Le configurazioni del connettore indice disattivate vengono ignorate se sono presenti in un elenco entrypoint. |
Indirizzo host |
Specifica l'indirizzo URL del sistema host in cui viene trovato il file di origine dati. |
Percorso file |
Specifica il percorso del documento XML principale contenente i collegamenti (
Il percorso è relativo alla radice dell'indirizzo host. |
Protocollo |
Specifica il protocollo utilizzato per accedere al file. Potete scegliere tra le seguenti opzioni:
Nota: L'impostazione Protocollo viene utilizzata solo se sono specificate informazioni nei campi Indirizzo host e/o Percorso file. I singoli documenti XML vengono scaricati mediante HTTP o HTTPS, in base alle specifiche URL. |
Nome |
Identifica l'elemento XML che definisce una "riga" nel file di origine dati specificato. |
Mappa |
Consente di specificare le mappature tra colonne e metadati utilizzando i numeri di colonna.
|
(Facoltativo) Fare clic su Setup Maps per scaricare un esempio dell'origine dati. I dati vengono esaminati per verificare l'idoneità all'indicizzazione. Questa funzione è disponibile solo per i tipi di testo e feed.
(Facoltativo) Fate clic su Preview per verificare il funzionamento effettivo della configurazione. Questa funzione è disponibile solo per i tipi di testo e feed.
Fare clic su Add per aggiungere la configurazione alla pagina Index Connector Definitions e all'elenco a discesa Index Connector Configurations nella pagina URL Entrypoints.
Consultate Informazioni sui punti di ingresso URL.
Nella pagina Index Connector Definitions fare clic su rebuild your staged site index.
(Facoltativo) Nella pagina Index Connector Definitions, effettuare una delle seguenti operazioni:
Fare clic su History per annullare le modifiche apportate.
Vedere Utilizzo dell'opzione Cronologia.
Clic Live.
Clic Push Live.
Vedere Invio live delle impostazioni dell'area di visualizzazione.
È possibile modificare un connettore indice esistente definito.
Non tutte le opzioni possono essere modificate, ad esempio Nome connettore indice o Tipo, dall'elenco a discesa Type.
Per modificare una definizione del connettore indice
Scegliere Settings > Crawling > Index Connector dal menu del prodotto.
Nella pagina Index Connector, sotto l'intestazione di colonna Actions, fare clic su Edit per un nome di definizione del connettore indice di cui si desidera modificare le impostazioni.
Nella pagina Index Connector Edit, impostate le opzioni desiderate.
Vedere la tabella delle opzioni in Aggiunta di una definizione del connettore indice.
Clic Save Changes.
(Facoltativo) Nella pagina Index Connector Definitions fare clic su rebuild your staged site index.
(Facoltativo) Nella pagina Index Connector Definitions, effettuare una delle seguenti operazioni:
Fare clic su History per annullare le modifiche apportate.
Vedere Utilizzo dell'opzione Cronologia.
Clic Live.
Clic Push Live.
Vedere Invio live delle impostazioni dell'area di visualizzazione.
È possibile esaminare le impostazioni di configurazione di una definizione di connettore indice esistente.
Dopo aver aggiunto la definizione del connettore indice alla pagina Index Connector Definitions, non è possibile modificarne l'impostazione Tipo. Al contrario, è necessario eliminare la definizione e aggiungerne una nuova.
Per visualizzare le impostazioni di una definizione del connettore indice
È possibile copiare una definizione del connettore indice esistente da usare come base per la creazione di un nuovo connettore indice.
Quando si copia una definizione del connettore indice, per impostazione predefinita la definizione copiata viene disabilitata. Per abilitare o "attivare" la definizione, è necessario modificarla dalla pagina Index Connector Edit e selezionare Enable.
Vedere Modifica della definizione di un connettore indice.
Per copiare una definizione del connettore indice
Scegliere Settings > Crawling > Index Connector dal menu del prodotto.
Nella pagina Index Connector, sotto l'intestazione di colonna Actions, fare clic su Copy per un nome di definizione del connettore indice di cui si desidera duplicare le impostazioni.
Nella pagina Index Connector Copy, immettete il nuovo nome della definizione.
Clic Copy.
(Facoltativo) Nella pagina Index Connector Definitions, effettuare una delle seguenti operazioni:
Fare clic su History per annullare le modifiche apportate.
Vedere Utilizzo dell'opzione Cronologia.
Clic Live.
Clic Push Live.
Vedere Invio live delle impostazioni dell'area di visualizzazione.
È possibile modificare il nome di una definizione del connettore indice esistente.
Dopo aver rinominato la definizione, selezionare Settings > Crawling > URL Entrypoints. Assicurarsi che il nuovo nome della definizione sia riportato nell'elenco a discesa della pagina URL Entrypoints.
Consultate Aggiunta di più punti di immissione URL da indicizzare.
Per rinominare una definizione del connettore indice
Scegliere Settings > Crawling > Index Connector dal menu del prodotto.
Nella pagina Index Connector, sotto l'intestazione di colonna Actions, fare clic su Rename per il nome della definizione del connettore indice che si desidera modificare.
Nella pagina Index Connector Rename, immettere il nuovo nome della definizione nel campo Name.
Clic Rename.
Fai clic su Settings > Crawling > URL Entrypoints. Se nell'elenco è presente il nome del connettore indice precedente, rimuoverlo e aggiungere la voce rinominata di recente.
Consultate Aggiunta di più punti di immissione URL da indicizzare. 1. (Facoltativo) Nella pagina Index Connector Definitions, effettuare una delle seguenti operazioni:
Fare clic su History per annullare le modifiche apportate.
Vedere Utilizzo dell'opzione Cronologia.
Clic Live.
Clic Push Live.
Vedere Invio live delle impostazioni dell'area di visualizzazione.
È possibile eliminare una definizione del connettore indice esistente non più necessaria o utilizzata.
Per eliminare una definizione del connettore indice