Avec l'index par script, vous pouvez écrire, mettre à jour et gérer des options d'indexation incrémentielle sans avoir à vous connecter. Le robot de recherche lit les instructions à partir d’un fichier texte hébergé sur votre serveur.
Pour utiliser l’index par script, vous utilisez la page Configuration de l’index incrémentiel par script pour spécifier l’URL d’un fichier de script (fichier de texte brut) situé sur votre serveur. Par exemple, https://www.mysite.com/indexlist.txt
. À mesure que votre site change, vous pouvez ajouter des blocs de commande au fichier texte, manuellement ou automatiquement (avec un script déclenché par l’arrivée d’informations à partir d’un flux d’actualités, d’un télex boursier ou d’un autre fichier modifié).
Lorsque l'index incrémentiel par script commence, le robot de recherche lit le fichier texte et exécute les nouvelles commandes qui se trouvent dans ce fichier. Par défaut, le robot de recherche ne traite que les nouvelles commandes, qui sont déterminées par la date du fichier. A moins que vous ne cochiez Clear Date au moment de la configuration de l'index par script, le robot de recherche "mémorise" le spécificateur de date du dernier bloc traité.
Le fichier de script que vous spécifiez dans l’URL est un fichier texte brut qui se trouve sur votre serveur. Vous pouvez utiliser des retours chariot, des flux de ligne ou les deux pour la séquence de fin de ligne. Une ligne vide contient zéro ou plusieurs caractères d’espace, suivis d’une séquence de fin de ligne. Toutes les commandes ne sont pas sensibles à la casse.
Le fichier texte est organisé en blocs décrivant les informations utilisées par le robot de recherche lorsqu'il effectue un index incrémentiel par script.
Les blocs sont classés par date, les blocs les plus anciens se trouvant en haut du fichier texte et les blocs les plus récents en bas. Chaque bloc commence par une commande-date sur une seule ligne et une commande de spécificateur de date et se termine par un séparateur de ligne vide, comme dans l'exemple de bloc suivant (entre plusieurs commandes) :
Un zéro de début est requis pour toutes les dates ordinales inférieures au 10e lors de l’utilisation du style HTTP 1.1. Par exemple, le 6 novembre est le 6 novembre, pas le 6 novembre.
Commande |
Description |
---|---|
date-commande |
La première ligne de chaque début de bloc comporte l'une des deux commandes de date :
|
spécificateur de date |
La commande spécificateur de date enregistre généralement soit la date et l'heure ordinales (commande de date), soit l'heure en secondes (commande de secondes) pendant lesquelles les informations de bloc ont été ajoutées au fichier. Par exemple : Un zéro de début est requis pour toutes les dates ordinales inférieures au 10e lors de l’utilisation du style HTTP 1.1. Par exemple, le 6 novembre est le 6 novembre, pas le 6 novembre. Le robot de recherche "mémorise" le spécificateur de date du dernier bloc traité et n'indexe que les informations qu'il considère comme étant "plus récentes". (Le temps réel n'a pas d'importance pour le robot de recherche. Au lieu de cela, c'est le temps par rapport aux autres heures précédemment traitées qui importe.) Une fois que le robot de recherche lit un bloc avec un spécificateur de date de 22h00, par exemple, il ne lit aucun bloc qui enregistre des heures avant 22h00, indépendamment du moment où l'opération d'indexation s'exécute. Dans le pire des cas, vous pouvez entrer par erreur l’année "2040" au lieu de "2004" dans votre spécificateur de date. Dans un tel cas, le robot de recherche indexe le bloc 2040 lors de la prochaine opération d'indexation, puis refuse de lire d'autres blocs d'informations (à moins qu'un post-date 2040). Si cela se produit, supprimez tous les blocs précédemment traités du fichier texte, cliquez sur Effacer la date , puis poussez-le en direct. |
ligne de commentaire |
Commencez les lignes de commentaire par le caractère "#". Chaque ligne de commentaire doit être une ligne qui lui est propre ; vous ne pouvez pas saisir de commentaires de fin de ligne. Une ligne de commentaire n’est pas considérée comme une ligne vide. Il peut également apparaître n’importe où dans un bloc, même avant une commande de date ou de secondes, comme dans l’exemple suivant : |
action-commande |
Chaque bloc de texte peut contenir autant de commandes d'action que vous le souhaitez. Les options de commande-action suivantes correspondent à celles de l’indexation incrémentielle standard :
|
Voir aussi A propos des masques d’URL.
Dans l’exemple de fichier de script suivant, le robot de recherche traite les blocs à condition que les spécificateurs de date postdatent le spécificateur de date du dernier bloc traité. Si tel est le cas, les opérations d’indexation suivantes se produisent :
Supprime y2k-problems.html
de l'index.
Ajoute no-y2k-problems.html
à l'index de recherche et ne suit aucun des liens de no-y2k-problems.html
.
Lors de l’analyse, excluez les URL qui correspondent à housewares.htm
et lightfixtures.htm
l de l’index de recherche.
Incluez tous les autres répertoires et documents sous www.mydomain.com
.
Mettez à jour tous les documents des répertoires products
et information
, en analysant et en indexant tous les liens subsidiaires qui ont changé depuis la dernière opération d'indexation.
Lors de l’analyse, excluez les URL de la section archive
du site Web si elles sont datées au plus tard le 1er janvier 1999.
Exclure les URL qui correspondent à housewares.html
et lightfixtures.html
de l'index de recherche.
Indexez les fichiers dans le répertoire help
, mais n'analysez ni n'indexez aucun lien à partir de ces fichiers.
Analyser et indexer tous les autres fichiers rencontrés pour www.mydomain.com
.
# Start of file.
# Added by John Smith
date Sat, 01 Jan 2004 16:05:53 PST
exclude https://www.mydomain.com/housewares.html
exclude https://www.mydomain.com/lightfixtures.html
include https://www.mydomain.com/
delete https://www.mydomain.com/y2k-problems.html
add https://www.mydomain.com/no-y2k-problems.html nofollow
date Sun, 02 Jan 2004 20:19:08 PST
# Added by the wire service updater
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date
exclude https://www.mydomain.com/housewares.html
exclude https://www.mydomain.com/lightfixtures.html
include https://www.mydomain.com/help/ nofollow
include https://www.mydomain.com/
# no add files, just update existing files
# update all files in the "products" directory
update https://www.mydomain.com/products/
# update all files in the "information" directory
update regexp ^https://www\.mydomain\.com/information/.*$
# End of file.
Vous pouvez spécifier un script que vous avez créé qui écrit, met à jour et maintient un index incrémentiel, sans avoir à vous connecter. Le robot de recherche lit les instructions du fichier texte hébergé sur votre serveur pour exécuter l'index incrémentiel.
Pour configurer un index incrémentiel par script
Dans le menu produit, cliquez sur Index > Scripted Index > Configuration.
Sur la page Scripted Incremental Index Configuration, dans Script File URL, saisissez l’URL du script de fichier texte situé sur votre serveur.
(Facultatif) Cochez Clear Date si vous ne souhaitez pas que le robot de recherche "se souvienne" du spécificateur de date du dernier bloc traité.
Par défaut, le robot de recherche ne traite que les nouveaux blocs de commandes qui se trouvent dans le fichier texte, qui est déterminé par la date du fichier. Si vous ne souhaitez pas que la valeur par défaut soit définie, vérifiez Clear Date.
Cliquez sur Save Changes.
(Facultatif) Effectuez l’une des opérations suivantes :
Cliquez sur History pour annuler les modifications que vous avez apportées.
Cliquez sur Live.
Cliquez sur Push Live.
Vous pouvez programmer l’indexation incrémentielle par script à intervalles réguliers tout au long de la journée.
L’heure de base sélectionnée est locale en fonction du fuseau horaire configuré dans les Paramètres du compte.
Voir Configuration des paramètres de votre compte.
Les serveurs Web sont souvent programmés pour une maintenance en pleine nuit. Si votre serveur est hors service pendant une heure d'indexation planifiée, le processus d'indexation échoue. Veillez à sélectionner l’heure de la journée à laquelle votre serveur Web est disponible.
Le calendrier de l'index ne s'applique qu'à votre index de production ; vous ne pouvez pas planifier des index incrémentiels intermédiaires.
Pour définir la planification de l’index incrémentiel par script pour un site Web actif
Vous pouvez utiliser l’index incrémentiel par script pour indexer des "morceaux" de votre site Web en direct ou d’évaluation, par exemple un ensemble de pages fréquemment modifiées, sans avoir à vous connecter.
Pour utiliser cette fonctionnalité, veillez à configurer un fichier texte d’index incrémentiel par script.
Voir Configuration d’un index incrémentiel par script.
Pour exécuter un index incrémentiel par script d’un site Web en direct ou par étape
Dans le menu produit, effectuez l’une des opérations suivantes :
Cliquez sur Scripted Index Now.
(Facultatif) Si des erreurs d’indexation se sont produites, cliquez sur View Errors pour vue du journal associé.
Lorsqu’un index par script complet en direct ou un index par script complet par étape est terminé, vous pouvez vue son journal associé pour résoudre les erreurs qui se sont produites.
Vous ne pouvez pas exporter de journaux ni les enregistrer. Cependant, le journal reste disponible pour affichage jusqu’à ce que le nouvel index se produise.
Pour vue du journal d'index incrémentiel d'un site Web dynamique ou d'un site Web intermédiaire
Dans le menu produit, effectuez l’une des opérations suivantes :
Cliquez sur Index > Scripted Index > Live Log.
Cliquez sur Index > Scripted Index > Staged Log.
Dans la page de journal, en haut ou en bas, effectuez l’une des opérations suivantes :
Utilisez les options de navigation First, Prev, Next, Last ou Go to line pour parcourir le journal.
Utilisez les options d'affichage Errors only, Wrap line ou Show pour affiner ce que vous voyez.