A propos de l’index par script

Avec l'index par script, vous pouvez écrire, mettre à jour et gérer des options d'indexation incrémentielle sans avoir à vous connecter. Le robot de recherche lit les instructions à partir d’un fichier texte hébergé sur votre serveur.

Utilisation de l’index par script

A propos de la configuration de l'indexation incrémentielle par script

Pour utiliser l’index par script, vous utilisez la page Configuration de l’index incrémentiel par script pour spécifier l’URL d’un fichier de script (fichier de texte brut) situé sur votre serveur. Par exemple, https://www.mysite.com/indexlist.txt. À mesure que votre site change, vous pouvez ajouter des blocs de commande au fichier texte, manuellement ou automatiquement (avec un script déclenché par l’arrivée d’informations à partir d’un flux d’actualités, d’un télex boursier ou d’un autre fichier modifié).

Lorsque l'index incrémentiel par script commence, le robot de recherche lit le fichier texte et exécute les nouvelles commandes qui se trouvent dans ce fichier. Par défaut, le robot de recherche ne traite que les nouvelles commandes, qui sont déterminées par la date du fichier. A moins que vous ne cochiez Clear Date au moment de la configuration de l'index par script, le robot de recherche "mémorise" le spécificateur de date du dernier bloc traité.

A propos du fichier de script

Le fichier de script que vous spécifiez dans l’URL est un fichier texte brut qui se trouve sur votre serveur. Vous pouvez utiliser des retours chariot, des flux de ligne ou les deux pour la séquence de fin de ligne. Une ligne vide contient zéro ou plusieurs caractères d’espace, suivis d’une séquence de fin de ligne. Toutes les commandes ne sont pas sensibles à la casse.

Le fichier texte est organisé en blocs décrivant les informations utilisées par le robot de recherche lorsqu'il effectue un index incrémentiel par script.

Les blocs sont classés par date, les blocs les plus anciens se trouvant en haut du fichier texte et les blocs les plus récents en bas. Chaque bloc commence par une commande-date sur une seule ligne et une commande de spécificateur de date et se termine par un séparateur de ligne vide, comme dans l'exemple de bloc suivant (entre plusieurs commandes) :

Un zéro de début est requis pour toutes les dates ordinales inférieures au 10e lors de l’utilisation du style HTTP 1.1. Par exemple, le 6 novembre est le 6 novembre, pas le 6 novembre.

Commande

Description

date-commande

La première ligne de chaque début de bloc comporte l'une des deux commandes de date :

  • date

    Utilisez la commande "date" pour indiquer que le spécificateur de date se composera d’un jour, d’une date, d’une heure et d’un fuseau horaire.

  • secondes

    Utilisez secondes pour indiquer que le spécificateur de date se composera d’une heure en quelques secondes (par exemple, 784111777). Lorsque vous utilisez secondes , veillez à ce que le nombre de secondes augmente entre les blocs.

spécificateur de date

La commande spécificateur de date enregistre généralement soit la date et l'heure ordinales (commande de date), soit l'heure en secondes (commande de secondes) pendant lesquelles les informations de bloc ont été ajoutées au fichier. Par exemple :

date Sun, 06 Nov 1994 08:49:37 GMT (HTTP 1.1 style) date Sunday, 06-Nov-94 08:49:37 GMT (HTTP 1.0 style) date Sun Nov 6 08:49:37 1994 (Unix asctime() date style) seconds 784111777 (Unix epoch-seconds style)

Un zéro de début est requis pour toutes les dates ordinales inférieures au 10e lors de l’utilisation du style HTTP 1.1. Par exemple, le 6 novembre est le 6 novembre, pas le 6 novembre.

Le robot de recherche "mémorise" le spécificateur de date du dernier bloc traité et n'indexe que les informations qu'il considère comme étant "plus récentes". (Le temps réel n'a pas d'importance pour le robot de recherche. Au lieu de cela, c'est le temps par rapport aux autres heures précédemment traitées qui importe.)

Une fois que le robot de recherche lit un bloc avec un spécificateur de date de 22h00, par exemple, il ne lit aucun bloc qui enregistre des heures avant 22h00, indépendamment du moment où l'opération d'indexation s'exécute. Dans le pire des cas, vous pouvez entrer par erreur l’année "2040" au lieu de "2004" dans votre spécificateur de date. Dans un tel cas, le robot de recherche indexe le bloc 2040 lors de la prochaine opération d'indexation, puis refuse de lire d'autres blocs d'informations (à moins qu'un post-date 2040). Si cela se produit, supprimez tous les blocs précédemment traités du fichier texte, cliquez sur Effacer la date , puis poussez-le en direct.

ligne de commentaire

Commencez les lignes de commentaire par le caractère "#".

Chaque ligne de commentaire doit être une ligne qui lui est propre ; vous ne pouvez pas saisir de commentaires de fin de ligne.

Une ligne de commentaire n’est pas considérée comme une ligne vide. Il peut également apparaître n’importe où dans un bloc, même avant une commande de date ou de secondes, comme dans l’exemple suivant :

    #Added by Cathy Read after the Y2K seminar     date Mon, 29 Dec 1999 09:32:20 GMT 

action-commande

Chaque bloc de texte peut contenir autant de commandes d'action que vous le souhaitez. Les options de commande-action suivantes correspondent à celles de l’indexation incrémentielle standard :

  • add

    Utilisation avec l’URL. Le robot de recherche indexe uniquement les URL spécifiées qui ont changé depuis votre dernière opération d'indexation. De plus, le robot de recherche suit les liens contenus dans des documents et index spécifiés uniquement les documents qui ont changé.

    Vous pouvez suivre l’URL avec nofollow ou Mots-clés noindex comme dans l'exemple suivant :

    add https://www.mydomain.com/ noindex

  • update

    Utilisation avec masque d’URL. Le robot de recherche trouve et met à jour tous les documents qui correspondent au masque d'URL spécifié.

    Vous pouvez suivre l’URL avec nofollow ou Mots-clés noindex comme dans l'exemple suivant :

    update https://www.mydomain.com/products/

  • include ou exclude

    Utilisation avec masque d’URL. Le robot de recherche trouve et indexe ("include") ou ignore ("exclude") les documents en fonction du type de masque spécifié.

    Par exemple :

    include https://www.mydomain.com/products/household/lightbulbs*.html

    ou

    exclude https://www.mydomain.com/archive/

  • include-date ou exclude-date

    Utilisation avec masque d’URL. Le robot de recherche trouve et indexe ("include") ou ignore ("exclude") les documents en fonction de l’URL et de la date des documents. Les types de masques suivants sont disponibles :

    • include-days NNN

      Le robot de recherche indexe tous les documents qui correspondent au masque d'URL spécifié et qui sont âgés de NNN ou plus.

      Vous pouvez suivre le masque d'URL avec les mots-clés nofollow , noindex et/ou server-date .

    • include-date YYYY-MM-DD

      Le robot de recherche indexe tous les documents qui correspondent au masque d’URL spécifié et qui sont aussi anciens ou plus anciens que la date AAAA-MM-JJ, où "AAAA" correspond à l’année à 4 chiffres, "MM" à un ou deux chiffres (1-12) et "JJ" à un ou deux chiffres (1-31).

      Vous pouvez suivre le masque d'URL avec les mots-clés nofollow , noindex et/ou server-date .

    • exclude-days NNN

      Désactive l’indexation de tous les documents qui correspondent au masque d’URL spécifié et qui sont de NNN jours ou plus anciens.

      Vous pouvez suivre le masque d'URL avec le mot-clé server-date .

    • exclude-date YYYY-MM-DD

      Désactive l’indexation de tous les documents qui correspondent au masque d’URL spécifié et qui sont aussi anciens ou plus anciens que la date AAAA-MM-JJ.

      Vous pouvez suivre le masque d'URL avec le mot-clé server-date .

  • delete

    Spécifiez les URL. Le robot de recherche supprime les documents de l’index identifiés par l’URL.

  • deletemask

    Le robot de recherche supprime des documents de l’index qui correspondent au masque d’URL spécifié.

Voir aussi A propos des masques d’URL.

Exemple de fichier de script

Dans l’exemple de fichier de script suivant, le robot de recherche traite les blocs à condition que les spécificateurs de date postdatent le spécificateur de date du dernier bloc traité. Si tel est le cas, les opérations d’indexation suivantes se produisent :

  • Supprime y2k-problems.html de l'index.

  • Ajoute no-y2k-problems.html à l'index de recherche et ne suit aucun des liens de no-y2k-problems.html.

  • Lors de l’analyse, excluez les URL qui correspondent à housewares.htm et lightfixtures.html de l’index de recherche.

  • Incluez tous les autres répertoires et documents sous www.mydomain.com.

  • Mettez à jour tous les documents des répertoires products et information, en analysant et en indexant tous les liens subsidiaires qui ont changé depuis la dernière opération d'indexation.

  • Lors de l’analyse, excluez les URL de la section archive du site Web si elles sont datées au plus tard le 1er janvier 1999.

  • Exclure les URL qui correspondent à housewares.html et lightfixtures.html de l'index de recherche.

  • Indexez les fichiers dans le répertoire help, mais n'analysez ni n'indexez aucun lien à partir de ces fichiers.

  • Analyser et indexer tous les autres fichiers rencontrés pour www.mydomain.com.

# Start of file. 
# Added by John Smith 
date Sat, 01 Jan 2004 16:05:53 PST 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/ 
delete https://www.mydomain.com/y2k-problems.html 
add https://www.mydomain.com/no-y2k-problems.html nofollow 
 
date Sun, 02 Jan 2004 20:19:08 PST 
# Added by the wire service updater 
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/help/ nofollow 
include https://www.mydomain.com/ 
# no add files, just update existing files 
# update all files in the "products" directory 
update https://www.mydomain.com/products/ 
# update all files in the "information" directory 
update regexp ^https://www\.mydomain\.com/information/.*$ 
# End of file.

Configuration d’un index incrémentiel par script

Vous pouvez spécifier un script que vous avez créé qui écrit, met à jour et maintient un index incrémentiel, sans avoir à vous connecter. Le robot de recherche lit les instructions du fichier texte hébergé sur votre serveur pour exécuter l'index incrémentiel.

Pour configurer un index incrémentiel par script

  1. Dans le menu produit, cliquez sur Index > Scripted Index > Configuration.

  2. Sur la page Scripted Incremental Index Configuration, dans Script File URL, saisissez l’URL du script de fichier texte situé sur votre serveur.

    Voir A propos de l’index par script.

  3. (Facultatif) Cochez Clear Date si vous ne souhaitez pas que le robot de recherche "se souvienne" du spécificateur de date du dernier bloc traité.

    Par défaut, le robot de recherche ne traite que les nouveaux blocs de commandes qui se trouvent dans le fichier texte, qui est déterminé par la date du fichier. Si vous ne souhaitez pas que la valeur par défaut soit définie, vérifiez Clear Date.

  4. Cliquez sur Save Changes.

  5. (Facultatif) Effectuez l’une des opérations suivantes :

Définition de la planification de l'index incrémentiel par script pour un site Web actif

Vous pouvez programmer l’indexation incrémentielle par script à intervalles réguliers tout au long de la journée.

L’heure de base sélectionnée est locale en fonction du fuseau horaire configuré dans les Paramètres du compte.

Voir Configuration des paramètres de votre compte.

Les serveurs Web sont souvent programmés pour une maintenance en pleine nuit. Si votre serveur est hors service pendant une heure d'indexation planifiée, le processus d'indexation échoue. Veillez à sélectionner l’heure de la journée à laquelle votre serveur Web est disponible.

Le calendrier de l'index ne s'applique qu'à votre index de production ; vous ne pouvez pas planifier des index incrémentiels intermédiaires.

Pour définir la planification de l’index incrémentiel par script pour un site Web actif

  1. Dans le menu produit, cliquez sur Index > Scripted Index > Live Schedule.
  2. Sur la page Scripted Incremental Index Schedule, dans la liste déroulante Read the Scripted Incrementally Indexing File, sélectionnez la fréquence d’exécution du fichier texte d’index incrémentiel par script, en heures ou en minutes.
  3. Dans la liste déroulante Base Time, sélectionnez l’heure de début à laquelle vous souhaitez régénérer un nouvel index incrémentiel par script.
  4. Cliquez sur Save Changes.

Exécution d’un index incrémentiel par script d’un site Web en direct ou par étape

Vous pouvez utiliser l’index incrémentiel par script pour indexer des "morceaux" de votre site Web en direct ou d’évaluation, par exemple un ensemble de pages fréquemment modifiées, sans avoir à vous connecter.

Pour utiliser cette fonctionnalité, veillez à configurer un fichier texte d’index incrémentiel par script.

Voir Configuration d’un index incrémentiel par script.

Pour exécuter un index incrémentiel par script d’un site Web en direct ou par étape

  1. Dans le menu produit, effectuez l’une des opérations suivantes :

    • Cliquez sur Index > Scripted Index > Live Index.
    • Cliquez sur Index > Scripted Index > Staged Index.
  2. Cliquez sur Scripted Index Now.

  3. (Facultatif) Si des erreurs d’indexation se sont produites, cliquez sur View Errors pour vue du journal associé.

Affichage du journal d'index incrémentiel par script d'un site Web en direct ou d'un site Web intermédiaire

Lorsqu’un index par script complet en direct ou un index par script complet par étape est terminé, vous pouvez vue son journal associé pour résoudre les erreurs qui se sont produites.

Vous ne pouvez pas exporter de journaux ni les enregistrer. Cependant, le journal reste disponible pour affichage jusqu’à ce que le nouvel index se produise.

Pour vue du journal d'index incrémentiel d'un site Web dynamique ou d'un site Web intermédiaire

  1. Dans le menu produit, effectuez l’une des opérations suivantes :

    • Cliquez sur Index > Scripted Index > Live Log.

    • Cliquez sur Index > Scripted Index > Staged Log.

  2. Dans la page de journal, en haut ou en bas, effectuez l’une des opérations suivantes :

    • Utilisez les options de navigation First, Prev, Next, Last ou Go to line pour parcourir le journal.

    • Utilisez les options d'affichage Errors only, Wrap line ou Show pour affiner ce que vous voyez.

Sur cette page