Con l'indice con script è possibile scrivere, aggiornare e mantenere opzioni di indicizzazione incrementale senza dover effettuare l'accesso. Il robot di ricerca legge le istruzioni da un file di testo ospitato sul server.
Per utilizzare l'indice con script, è possibile utilizzare la pagina Configurazione indice incrementale con script per specificare l'URL di un file di script (un file di testo normale) che si trova sul server. Ad esempio, https://www.mysite.com/indexlist.txt
. Quando il sito cambia, potete aggiungere blocchi di comando al file di testo manualmente o automaticamente (con uno script avviato dall'arrivo di informazioni da un feed di notizie, un ticker di azioni o altri file alterati).
Quando inizia l'indice incrementale con script, il robot di ricerca legge il file di testo ed esegue i nuovi comandi che si trovano in quel file. Per impostazione predefinita, il robot di ricerca elabora solo i nuovi comandi, determinati dalla data del file. A meno che non si verifichi Clear Date al momento della configurazione dell'indice con script, il robot di ricerca "ricorda" l'identificatore data del blocco elaborato più di recente.
Il file di script specificato nell'URL è un file di testo normale che si trova sul server. È possibile utilizzare ritorni a capo, feed di linea o entrambi per la sequenza di fine riga. Una riga vuota contiene zero o più caratteri di spazio vuoto seguiti da una sequenza di fine riga. Tutti i comandi non fanno distinzione tra maiuscole e minuscole.
Il file di testo è organizzato in blocchi che descrivono le informazioni utilizzate dal robot di ricerca quando esegue un indice incrementale con script.
I blocchi sono ordinati per data, con i blocchi più vecchi nella parte superiore del file di testo e i blocchi più recenti nella parte inferiore. Ogni blocco inizia con un comando data-riga singola e un comando data-identificatore, e termina con un separatore di riga vuota come nell'esempio di blocco seguente (tra i quali sono diversi comandi):
Per tutte le date ordinali inferiori al 10, è richiesto uno zero iniziale quando si utilizza lo stile HTTP 1.1. Ad esempio, il 6 novembre è 06 nov, non 6 nov.
Comando |
Descrizione |
---|---|
date-command |
La prima riga di ciascun blocco inizia con uno dei due comandi data:
|
data-identificatore |
Il comando data-identificatore registra in genere la data e l'ora ordinali (comando data) o l'ora in secondi epoch (comando secondi) in cui le informazioni del blocco sono state aggiunte al file. Ad esempio: Per tutte le date ordinali inferiori al 10, è richiesto uno zero iniziale quando si utilizza lo stile HTTP 1.1. Ad esempio, il 6 novembre è 06 nov, non 6 nov. Il robot di ricerca "ricorda" l'identificatore della data del blocco elaborato più di recente e indicizza solo le informazioni che considera "più recenti". (Il tempo reale non ha importanza per il robot di ricerca. Invece, il tempo in relazione ad altri tempi precedentemente elaborati è ciò che conta.) Dopo che il robot di ricerca legge un blocco con un identificatore data di 10:00 p.m., ad esempio, non legge blocchi che registrano i tempi prima delle 10:00 p.m., indipendentemente da quando l'operazione indice è in esecuzione. In uno scenario peggiore, potete immettere erroneamente l'anno "2040" invece di "2004" nel vostro identificatore data. In questo caso, il robot di ricerca indicizza il blocco 2040 durante l'operazione di indicizzazione successiva e rifiuta di leggere qualsiasi altro blocco di informazioni (a meno che un post-date 2040). In questo caso, rimuovere tutti i blocchi precedentemente elaborati dal file di testo, fare clic su Cancella data , quindi eseguirne il push dal vivo. |
commento, riga |
Iniziare le righe dei commenti con il carattere "#". Ogni riga di commento deve essere una riga propria; non è possibile digitare commenti di fine riga. Una riga di commento non è considerata una riga vuota. Può essere visualizzato anche in qualsiasi punto di un blocco, anche prima di un comando data o secondi, come nell'esempio seguente: |
action-command |
Ogni blocco di testo può contenere tutti i comandi di azione desiderati. Le seguenti opzioni di comando azione corrispondono a quelle per l'indicizzazione incrementale standard:
|
Vedere anche Informazioni sulle maschere URL.
Nell'esempio di file di script riportato di seguito, il robot di ricerca elabora i blocchi a condizione che gli identificatori data postino l'identificatore data dell'ultimo blocco elaborato. In tal caso, si verificano le seguenti operazioni di indicizzazione:
Elimina y2k-problems.html
dall'indice.
Aggiunge no-y2k-problems.html
all'indice di ricerca e non segue nessuno dei collegamenti per no-y2k-problems.html
.
Durante la ricerca per indicizzazione, escludere dall'indice di ricerca gli URL che corrispondono a housewares.htm
e lightfixtures.htm
l.
Includi tutte le altre directory e documenti in www.mydomain.com
.
Aggiorna tutti i documenti all'interno delle directory products
e information
, eseguendo la ricerca per indicizzazione e indicizzando tutti i collegamenti sussidiari modificati dall'ultima operazione di indicizzazione.
Durante la ricerca per indicizzazione, escludete gli URL nella sezione archive
del sito Web, se datati il 1 gennaio 1999 o prima di tale data.
Escludete dall'indice di ricerca gli URL che corrispondono a housewares.html
e lightfixtures.html
.
Indicizzare i file nella directory help
, ma non eseguire ricerche per indicizzazione o indicizzare alcun collegamento da tali file.
Eseguire la ricerca per indicizzazione e indicizzare qualsiasi altro file rilevato per www.mydomain.com
.
# Start of file.
# Added by John Smith
date Sat, 01 Jan 2004 16:05:53 PST
exclude https://www.mydomain.com/housewares.html
exclude https://www.mydomain.com/lightfixtures.html
include https://www.mydomain.com/
delete https://www.mydomain.com/y2k-problems.html
add https://www.mydomain.com/no-y2k-problems.html nofollow
date Sun, 02 Jan 2004 20:19:08 PST
# Added by the wire service updater
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date
exclude https://www.mydomain.com/housewares.html
exclude https://www.mydomain.com/lightfixtures.html
include https://www.mydomain.com/help/ nofollow
include https://www.mydomain.com/
# no add files, just update existing files
# update all files in the "products" directory
update https://www.mydomain.com/products/
# update all files in the "information" directory
update regexp ^https://www\.mydomain\.com/information/.*$
# End of file.
È possibile specificare uno script creato che scrive, aggiorna e mantiene un indice incrementale, senza la necessità di effettuare l'accesso. Il robot di ricerca legge le istruzioni dal file di testo ospitato sul server per eseguire l'indice incrementale.
Per configurare un indice incrementale con script
Scegliere Index > Scripted Index > Configuration dal menu del prodotto.
Nella pagina Scripted Incremental Index Configuration, immettere l'URL dello script del file di testo che si trova sul server.Script File URL
(Facoltativo) Selezionare Clear Date se non si desidera che il robot di ricerca "ricordi" l'identificatore data dell'ultimo blocco elaborato.
Per impostazione predefinita, il robot di ricerca elabora solo nuovi blocchi di comandi che si trovano nel file di testo, che è determinato dalla data del file. Se non si desidera utilizzare il valore predefinito, selezionare Clear Date.
Clic Save Changes.
(Facoltativo) Effettuate una delle seguenti operazioni:
Fare clic su History per annullare le modifiche apportate.
Vedere Utilizzo dell'opzione Cronologia.
Clic Live.
Clic Push Live.
Vedere Invio live delle impostazioni dell'area di visualizzazione.
È possibile pianificare l'indicizzazione incrementale con script in modo che venga eseguita a intervalli regolari durante l'intera giornata.
L'ora di base selezionata è locale in base al fuso orario configurato in Impostazioni account.
Consultate Configurazione delle impostazioni dell'account.
I server Web sono spesso programmati per la manutenzione nel bel mezzo della notte. Se il server è inattivo durante un periodo di tempo di indicizzazione pianificato, il processo di indicizzazione non riuscirà. Accertatevi di selezionare un'ora del giorno in cui il server Web sarà disponibile.
La pianificazione dell'indice si applica solo all'indice live; non è possibile pianificare indici incrementali in fase.
Impostazione della pianificazione dell'indice incrementale con script per un sito Web attivo
È possibile utilizzare l'indice incrementale con script per indicizzare "parti" del sito Web live o in uno stage, ad esempio una raccolta di pagine modificate di frequente, il tutto senza dover effettuare l'accesso.
Per utilizzare questa funzione, accertatevi di aver configurato un file di testo indice incrementale con script.
Vedere Configurazione di un indice incrementale con script.
Per eseguire un indice incrementale con script di un sito Web attivo o in fase di esecuzione
Nel menu del prodotto, effettuate una delle seguenti operazioni:
Clic Scripted Index Now.
(Facoltativo) In caso di errori di indicizzazione, fare clic su View Errors per visualizzare il registro associato.
Quando un indice con script completo attivo o un indice con script completo in fase è completo, è possibile visualizzare il registro associato per risolvere eventuali errori che si sono verificati.
Non è possibile esportare i file di registro né salvarli. Tuttavia, il registro rimane disponibile per la visualizzazione fino a quando non si verifica il nuovo indice.
Per visualizzare il registro dell'indice incrementale di un sito Web attivo o in fase di esecuzione
Nel menu del prodotto, effettuate una delle seguenti operazioni:
Fai clic su Index > Scripted Index > Live Log.
Fai clic su Index > Scripted Index > Staged Log.
Nella pagina di registro, in alto o in basso, effettuate una delle seguenti operazioni:
Utilizzare le opzioni di navigazione First, Prev, Next, Last o Go to line per spostarsi all'interno del registro.
Utilizzate le opzioni di visualizzazione Errors only, Wrap line o Show per perfezionare il contenuto visualizzato.