A propos du menu Filtrage

Utilisez le menu Filtrage pour utiliser des scripts qui modifient le contenu d’un document Web avant son indexation.

A propos du script de filtrage

Vous pouvez utiliser Filtering Script pour modifier le contenu d'un document Web avant qu'il ne soit indexé.

Vous pouvez insérer des balises HTML, supprimer du contenu non pertinent et même créer de nouvelles métadonnées HTML basées sur l’URL d’un document, le type MIME et le contenu existant. Le script de filtrage est un script Perl, qui offre une gestion puissante des chaînes et la flexibilité de la mise en correspondance régulière des expressions. Vous utilisez le script de filtrage avec un script d’initialisation, un script de terminaison, un script de masques d’URL et une URL de test.

Le script de filtrage est exécuté chaque fois qu’un document est lu à partir de votre site Web. En d'autres termes, le script s'exécute comme un filtre standard. Il lit les données de STDIN, les transforme d'une certaine façon et écrit les résultats à STDOUT. Vous pouvez utiliser le script de filtrage pour imprimer les messages d’état du script de filtrage vers le journal d’index. Vous imprimez les messages à STDERR ou au moyen de la sous-routine _search_debug_log().

Certaines options de différences GNU que vous pouvez utiliser en mode Expert (diff) sur la page Script de filtrage par étapes, incluent les éléments suivants :

Option diff GNU

Description

-b

Ignore les modifications apportées à l’espace blanc.

-B

Ignore les modifications qui insèrent ou suppriment des lignes vierges.

-c

Utilise le format de sortie contextuel, avec trois lignes de contexte.

-C lignes

Utilise le format de sortie de contexte, avec des lignes (un entier) de contexte, ou trois si des lignes ne sont pas données.

-i

ignore les modifications de casse ; considérez les lettres en majuscules et en minuscules comme équivalentes.

-f

Génère une sortie qui ressemble à un script ed mais dont l’ordre d’affichage dans le fichier est modifié.

-n

produit des diffusions au format RCS ; comme -f , sauf que chaque commande spécifie le nombre de lignes concernées.

-u

Utilise le format de sortie unifié, avec trois lignes de contexte.

-U lignes

Utilise le format de sortie unifié, avec des lignes (un entier) de contexte, ou trois si des lignes ne sont pas données.

Vous pouvez utiliser des variables locales, globales ou les deux dans ces scripts. Toutes les variables globales sont préfacées avec l’espace de nommage "main::". Lorsque le script de filtrage est démarré, son environnement contient les gestionnaires de fichiers standard suivants :

  • STDIN - rien (renvoie immédiatement EOF lorsqu'il est lu)
  • STDOUT - HTML de remplacement (si les données sont imprimées sur STDOUT, elles sont utilisées à la place du document d’origine)
  • STDERR : les données imprimées sur STDERR sont imprimées dans le journal d'index en tant qu'erreur.

De plus, vous pouvez écrire des messages personnalisés dans le journal d'index à l'aide de la sous-routine _search_debug_log(), comme dans l'exemple suivant :

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Ces messages s’affichent avec le mot DEBUG comme préface et ne sont pas consignés comme des erreurs.

Voici un exemple de filtrage. Les champs de la page Web <title> commencent souvent par le nom de la société. Bien que ces informations soient utiles à la navigation sur le site, elles ne sont pas pertinentes lors de la recherche. Si les titres de toutes les pages Web de MegaCorp sont débuts avec une chaîne commune, telle que :

<title>MegaCorp -- meaningful title 
here</title>

Vous devez supprimer " MegaCorp --" du début de chaque titre de document et compter chaque document traité avec le script de filtrage. Pour ce faire, vous pouvez utiliser le script suivant :

# Make sure this is an HTML document. 
if ($main::ws_content_type =~ /^text\/html/) { 
    # Read the entire document into a local scalar variable. 
    my @docarray = <>; 
    my $doc = join("", @docarray); 
 
    # Remove "MegaCorp -- " from the title. 
    $doc =~ s/(<TITLE>)MegaCorp -- /$1/gis; 
 
    # Print the resulting document. 
    print $doc; 
 
    # Count that we've filtered one more document. 
    $main::doc_count++; 
}

Variables globales

Vous pouvez utiliser les variables suivantes dans tout script de filtrage :

Variable Description
$main::search_crawl_type La valeur $main::search_crawl_type indique le type d'opération d'index en cours. Formulaire obsolète : $main::ws_crawl_type Les opérations d'index et les valeurs associées sont les suivantes :
  • Index complet : Manuel - manual
  • Index complet : Programmé - auto
  • Index complet : Contrôle à distance : CGI
  • Index incrémentiel : Manuel - manual-incremental
  • Index incrémentiel : Programmé - auto-incremental
  • Index incrémentiel : Contrôle à distance : CGI-incremental
  • Index par script : Manuel - manual-indexlist.txt
  • Index par script : Programmé - auto-indexlist.txt
  • Index par script : Contrôle à distance : CGI-indexlist.txt
  • Régénérer - manual-upgrade
$main::search_clear_cache La valeur indique si l’option d’indexation "Effacer le cache d’index" a été demandée pour l’opération d’indexation en cours. Si "Effacer le cache d'index" a été demandé, la valeur de $main::search_clear_cache est " 1". Formulaire obsolète :$main::ws_clear_cache
$main::search_fields La valeur contient une liste séparée par des tabulations des champs de métadonnées définis dans le compte. Par défaut, la valeur est : url title desc keys target body alt date charset language Formulaire obsolète : $main::ws_fields
$main::search_collections La valeur contient une liste des collections séparées par des tabulations qui sont définies dans le compte. Formulaire obsolète :$main::ws_collections
$main::search_url La valeur est l’URL complète du document. Formulaire obsolète :$main::ws_url
$main::search_content_type La valeur est le type de contenu du document tel qu’il est extrait de la balise meta http-equiv. La valeur type est "text/html; charset=iso-8859-1". Formulaire obsolète :$main::ws_content_type
$main::search_content_class La valeur est la classe de contenu du document, telle qu’elle est dérivée du champ de type de contenu. Formulaire obsolète :$main::ws_content_class
$main::search_syntax_check La valeur reflète l’utilisation du bouton "Vérifier la syntaxe". Si vous cliquez dessus, la valeur est 1 (un); sinon, sa valeur est 0 (zéro). Formulaire obsolète :$main::ws_syntax_check
$main::search_last_mod_date Si elle est fournie par le serveur Web, cette valeur contient la représentation Epoch (secondes depuis le 1er janvier 1970) de la date de dernière modification du document. Vous pouvez formater cette valeur en utilisant l’appel de bibliothèque Perl localtime().

Conseils rapides

  • Toutes les variables globales sont préfacées avec l’espace de nommage "main::" : $main::doc_count = 0;

  • Toutes les variables locales sont déclarées avec "my" : my $i = 0;

  • Les sous-routines sont définies dans le script d’initialisation. Ils n'ont pas besoin d'un espace de nommage "principal : :" explicite : sub my_sub { ...

    }

  • Testez $main::search_content_type avant d'apporter des modifications à un fichier. Les tests peuvent vous aider à éviter d’apporter des modifications imprudentes aux fichiers binaires, tels que les fichiers SWF ou PDF :

    if ($main::search_content_type =~ /^text\/html/) { ...

  • $main::search_content_type est l'en-tête Content-Type complet fourni par votre serveur. Il peut parfois contenir un type MIME simple, tel que "text/html". Il peut également contenir un type MIME suivi d’autres informations, telles que le codage du jeu de caractères du document, comme "text/html; charset=iso-8859-1".

  • Pour chaque type de document non HTML, $main::search_content_type peut prendre différentes valeurs. Le test de chaque valeur de votre script devient fastidieux. Par exemple, certains documents Word comportent des valeurs de type de contenu "application/msword", "application/vnd.ms-word" ou "application/x-msword". Dans ce cas, $main::search_content_class peut prendre les valeurs suivantes :

    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • Dans cet exemple, le test de $main::search_content_class pour "word" correspondrait à l’une des trois valeurs de type de contenu possibles.

  • Si rien n'est imprimé à STDOUT à partir du script de filtrage, le document est utilisé exactement tel qu'il a été téléchargé. Autrement dit, si vous n'avez pas besoin de changer quoi que ce soit dans un document, vous n'avez pas besoin de copier STDIN dans STDOUT pour ce document.

  • Si vous souhaitez supprimer tout le texte d’un document, imprimez un fichier STDOUT valide. Par exemple, pour supprimer complètement tout le texte d’un document HTML, procédez comme suit : print "<html></html>";

Ajouter un script de filtrage

Le script de filtrage est un script Perl exécuté pour chaque document téléchargé à partir de votre site Web.

Vous utilisez le script de filtrage conjointement avec un script d’initialisation, un script de terminaison et un script de masques d’URL.

Veillez à recréer l’index de votre site afin que les résultats de votre script de filtrage soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site Web intermédiaire.

Pour ajouter un script de filtrage

  1. Dans le menu produit, cliquez sur Settings > Filtering > Filtering Script.

  2. (Facultatif) Sur la page Filtering Script, dans le champ Test URL, saisissez l’URL d’un document sur votre site Web.

    Cliquez sur une option de test pour afficher les modifications apportées au texte HTML brut.

    Option

    Description

    Champ de l’URL de test

    Permet de saisir l’URL d’un document sur votre site Web.

    Test

    Teste l’URL par rapport aux scripts de filtrage et aux masques d’URL.

    Le document d’URL de test est téléchargé, puis utilisé comme entrée STDIN dans le script de filtrage. Les scripts d’initialisation, de filtrage et de terminaison sont alors exécutés. S’il existe une sortie STDOUT issue du script de filtrage, cette sortie s’affiche dans une nouvelle fenêtre du navigateur.

    Test uniquement

    Teste uniquement l’opération du script.

    Aperçu

    Permet de vue à la page.

    Visuel complet

    Génère une vue complète de table avant et après des documents.

    Visuel court

    Affiche uniquement les différences entre les vues avant et après.

    Expert (diff)

    Affiche la sortie brute de la commande GNU diff utilisée pour comparer les fichiers, à l'aide des options de ligne de commande fournies.

    Script de filtrage

    Permet de coller le script de filtrage dans le champ fourni.

    Enregistrer les modifications

    Enregistre le script de filtrage.

    Vérifier la syntaxe

    Permet de vérifier rapidement la syntaxe de votre script en exécutant les scripts d’initialisation, de filtrage et de terminaison. Il ne met pas à jour et n’enregistre pas votre script.

    Toutes les erreurs et avertissements du compilateur Perl, ainsi que toutes les sorties de STDERR sont imprimées.

    Avant que les effets du script ne soient visibles par les clients, vous devez recréer l’index de votre site.

    Options de ligne de commande GNU diff

    Certaines options de différences GNU que vous pouvez utiliser en mode Expert (diff) sur la page Script de filtrage par étapes, incluent les éléments suivants :

    GNU diff, option de ligne de commande

    Description

    -b

    Ignore les modifications apportées à l’espace blanc.

    -B

    Ignore les modifications qui insèrent ou suppriment des lignes vierges.

    -c

    Utilise le format de sortie contextuel, avec trois lignes de contexte.

    -C lignes

    Utilise le format de sortie de contexte, avec des lignes (un entier) de contexte, ou trois si des lignes ne sont pas données.

    -i

    ignore les modifications de casse ; considérez les lettres en majuscules et en minuscules comme équivalentes.

    -f

    Génère une sortie qui ressemble à un script ed mais dont l’ordre d’affichage dans le fichier est modifié.

    -n

    produit des diffusions au format RCS ; comme -f , sauf que chaque commande spécifie le nombre de lignes concernées.

    -u

    Utilise le format de sortie unifié, avec trois lignes de contexte.

    -U lignes

    Utilise le format de sortie unifié, avec des lignes (un entier) de contexte, ou trois si des lignes ne sont pas données.

  3. Cliquez sur Test pour tester les scripts de filtrage et les masques d’URL.

    Le fait de cliquer sur Test ne met pas à jour et n'enregistre pas votre script de filtrage.

  4. Dans le champ Filtering Script, collez votre script.

  5. (Facultatif) Cliquez sur Check Syntax pour vérifier rapidement la syntaxe de votre script en exécutant les scripts de filtrage, d’initialisation et de terminaison.

    Check Syntax ne met pas à jour et n’enregistre pas votre script.

  6. Cliquez sur Save Changes.

  7. (Facultatif) Recréez l’index de votre site d’évaluation si vous souhaitez prévisualisation les résultats.

    Voir Configuration d’un index incrémentiel d’un site Web intermédiaire.

  8. (Facultatif) Sur la page Filtering Script, effectuez l’une des opérations suivantes :

A propos du script d'initialisation

Vous pouvez utiliser Initialization Script pour modifier le contenu d'un document Web avant qu'il ne soit indexé.

Vous pouvez insérer des balises HTML, supprimer du contenu non pertinent et même créer de nouvelles métadonnées HTML basées sur l’URL d’un document, le type MIME et le contenu existant. Le script d'initialisation est un script Perl, qui permet une gestion puissante des chaînes et la flexibilité de la mise en correspondance régulière des expressions. Vous utilisez le script d’initialisation avec un script de filtrage, un script de terminaison, un script de masques d’URL et une URL de test.

Le script d’initialisation est exécuté une fois avant que l’indexation ne commence. Utilisez ce script pour initialiser toutes les variables globales et sous-routines utilisées par votre script de filtrage. Vous pouvez utiliser le script d’initialisation pour imprimer des messages d’état depuis le script de filtrage vers le journal d’index. Vous imprimez les messages à STDERR ou par l'intermédiaire de la sous-routine _search_debug_log().

Certaines options de différences GNU que vous pouvez utiliser en mode Expert (diff) sur la page Script d'initialisation intermédiaire, incluent les éléments suivants :

Option diff GNU

Description

-b

Ignore les modifications apportées à l’espace blanc.

-B

Ignore les modifications qui insèrent ou suppriment des lignes vierges.

-c

Utilise le format de sortie contextuel, avec trois lignes de contexte.

-C lignes

Utilise le format de sortie de contexte, avec des lignes (un entier) de contexte, ou trois si des lignes ne sont pas données.

-i

ignore les modifications de casse ; considérez les lettres en majuscules et en minuscules comme équivalentes.

-f

Génère une sortie qui ressemble à un script ed mais dont l’ordre d’affichage dans le fichier est modifié.

-n

produit des diffusions au format RCS ; comme -f , sauf que chaque commande spécifie le nombre de lignes concernées.

-u

Utilise le format de sortie unifié, avec trois lignes de contexte.

-U lignes

Utilise le format de sortie unifié, avec des lignes (un entier) de contexte, ou trois si des lignes ne sont pas données.

Vous pouvez utiliser des variables locales, globales ou les deux dans ces scripts. Toutes les variables globales sont préfacées avec l’espace de nommage "main::". Lorsque le script d’initialisation est démarré, son environnement contient les gestionnaires de fichiers standard suivants :

  • STDIN - rien (renvoie immédiatement EOF lorsqu'il est lu)
  • STDOUT - rien (si les données sont imprimées sur STDOUT, elles sont ignorées)
  • STDERR : les données imprimées sur STDERR sont imprimées dans le journal d'index en tant qu'erreur.

De plus, vous pouvez écrire des messages personnalisés dans le journal d'index à l'aide de la sous-routine _search_debug_log(), comme dans l'exemple suivant :

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Ces messages s’affichent avec le mot DEBUG comme préface et ne sont pas consignés comme des erreurs.

Voici un exemple de script d’initialisation :

# My subroutine to do something. 
sub my_sub_for_the_filtering_script { 
    my ($param1, $param2) = @_; 
    ... 
} 
 
# Initialize the document counter. 
$main::doc_count = 0;

Voir Variables globales.

Conseils rapides

  • Toutes les variables globales sont préfacées avec l’espace de nommage "main::" : $main::doc_count = 0;

  • Toutes les variables locales sont déclarées avec "my" : my $i = 0;

  • Les sous-routines sont définies dans le script d’initialisation. Ils n'ont pas besoin d'un espace de nommage "principal : :" explicite : sub my_sub { ...

    }

  • Testez $main::search_content_type avant d'apporter des modifications à un fichier. Les tests peuvent vous aider à éviter d’apporter des modifications imprudentes aux fichiers binaires, tels que les fichiers SWF ou PDF :

    if ($main::search_content_type =~ /^text\/html/) { ...

  • $main::search_content_type est l'en-tête Content-Type complet fourni par votre serveur. Il peut parfois contenir un type MIME simple, tel que "text/html". Il peut également contenir un type MIME suivi d’autres informations, telles que le codage du jeu de caractères du document, comme "text/html; charset=iso-8859-1".

  • Pour chaque type de document non HTML, $main::search_content_type peut prendre différentes valeurs. Le test de chaque valeur de votre script devient fastidieux. Par exemple, certains documents Word comportent des valeurs de type de contenu "application/msword", "application/vnd.ms-word" ou "application/x-msword". Dans ce cas, $main::search_content_class peut prendre les valeurs suivantes :

    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • texte
  • Dans cet exemple, le test de $main::search_content_class pour "word" correspondrait à l’une des trois valeurs de type de contenu possibles.

  • Si rien n'est imprimé à STDOUT à partir du script de filtrage, le document est utilisé exactement tel qu'il a été téléchargé. Autrement dit, si vous n'avez pas besoin de changer quoi que ce soit dans un document, vous n'avez pas besoin de copier STDIN dans STDOUT pour ce document.

  • Si vous souhaitez supprimer tout le texte d’un document, imprimez un fichier STDOUT valide. Par exemple, pour supprimer complètement tout le texte d’un document HTML, procédez comme suit : print "<html></html>";

Ajouter un script d'initialisation

Le script d’initialisation est un script Perl qui s’exécute une fois avant que les documents ne soient indexés.

Vous utilisez le script d’initialisation conjointement avec un script de filtrage, un script de terminaison et un script de masques d’URL.

Veillez à recréer l’index de votre site afin que les résultats de votre script d’initialisation soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site Web intermédiaire.

Pour ajouter un script d’initialisation

  1. Dans le menu produit, cliquez sur Settings > Filtering > Initialization Script.

  2. (Facultatif) Sur la page Initialization Script, dans le champ Test URL, saisissez l’URL d’un document sur votre site Web.

    Cliquez sur une option de test pour afficher les modifications apportées au texte HTML brut.

    Voir le tableau des options de filtrage sous Ajouter un script de filtrage.

    Cliquez sur Test pour tester les scripts de filtrage et les masques d’URL.

    Le fait de cliquer sur Test ne met pas à jour et n'enregistre pas votre script d'initialisation.

  3. Dans le champ Initialization Script, collez votre script.

  4. (Facultatif) Cliquez sur Check Syntax pour vérifier rapidement la syntaxe de votre script en exécutant les scripts de filtrage, d’initialisation et de terminaison.

    Check Syntax ne met pas à jour et n’enregistre pas votre script.

  5. Cliquez sur Save Changes.

  6. (Facultatif) Recréez l’index de votre site d’évaluation si vous souhaitez prévisualisation les résultats.

    Voir Configuration d’un index incrémentiel d’un site Web intermédiaire.

  7. (Facultatif) Sur la page Initialization Script, effectuez l’une des opérations suivantes :

A propos du script de résiliation

Vous pouvez utiliser Termination Script pour modifier le contenu d'un document Web avant qu'il ne soit indexé.

Vous pouvez insérer des balises HTML, supprimer du contenu non pertinent et même créer de nouvelles métadonnées HTML basées sur l’URL d’un document, le type MIME et le contenu existant. Le script d'initialisation est un script Perl, qui permet une gestion puissante des chaînes et la flexibilité de la mise en correspondance régulière des expressions. Vous utilisez le script de terminaison avec un script d’initialisation, un script de filtrage, un script de terminaison, un script de masques d’URL et une URL de test.

Le script de terminaison est exécuté une fois que tous les documents sont indexés. Vous pouvez utiliser le script de fin pour imprimer les messages d’état du script de filtrage vers le journal d’index. Vous imprimez les messages à STDERR ou par l'intermédiaire de la sous-routine _search_debug_log().

Certaines options de ligne de commande GNU diff que vous pouvez utiliser en mode Expert (diff) sur la page Script d'interruption de service, incluent les éléments suivants :

GNU diff, option de ligne de commande

Description

-b

Ignore les modifications apportées à l’espace blanc.

-B

Ignore les modifications qui insèrent ou suppriment des lignes vierges.

-c

Utilise le format de sortie contextuel, avec trois lignes de contexte.

-C lignes

Utilise le format de sortie de contexte, avec des lignes (un entier) de contexte, ou trois si des lignes ne sont pas données.

-i

ignore les modifications de casse ; considérez les lettres en majuscules et en minuscules comme équivalentes.

-f

Génère une sortie qui ressemble à un script ed mais dont l’ordre d’affichage dans le fichier est modifié.

-n

produit des diffusions au format RCS ; comme -f , sauf que chaque commande spécifie le nombre de lignes concernées.

-u

Utilise le format de sortie unifié, avec trois lignes de contexte.

-U lignes

Utilise le format de sortie unifié, avec des lignes (un entier) de contexte, ou trois si des lignes ne sont pas données.

Vous pouvez utiliser des variables locales, globales ou les deux dans ces scripts. Toutes les variables globales sont préfacées avec l’espace de nommage "main::". Lorsque le script de terminaison est démarré, son environnement contient les gestionnaires de fichiers standard suivants :

  • STDIN - rien (renvoie immédiatement EOF lorsqu'il est lu)
  • STDOUT - rien (si les données sont imprimées sur STDOUT, elles sont ignorées)
  • STDERR : les données imprimées sur STDERR sont imprimées dans le journal d'index en tant qu'erreur.

De plus, vous pouvez écrire des messages personnalisés dans le journal d'index à l'aide de la sous-routine _search_debug_log(), comme dans l'exemple suivant :

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Ces messages s’affichent avec le mot DEBUG comme préface et ne sont pas consignés comme des erreurs.

Pour afficher le nombre de documents traités par votre script de filtrage sous forme de ligne d’erreur dans le journal d’index, vous pouvez utiliser le script de terminaison suivant :

# Print the value of the document counter. 
print STDERR "Total docs: $main::doc_count\n"; 
# Or, using the log subroutine: 
_search_debug_log("Total docs: " . $main::doc_count);

Voir Variables globales.

Conseils rapides

  • Toutes les variables globales sont préfacées avec l’espace de nommage "main::" : $main::doc_count = 0;

  • Toutes les variables locales sont déclarées avec "my" : my $i = 0;

  • Les sous-routines sont définies dans le script d’initialisation. Ils n'ont pas besoin d'un espace de nommage "principal : :" explicite : sub my_sub { ...

    }

  • Testez $main::search_content_type avant d'apporter des modifications à un fichier. Les tests peuvent vous aider à éviter d’apporter des modifications imprudentes aux fichiers binaires, tels que les fichiers SWF ou PDF :

    if ($main::search_content_type =~ /^text\/html/) { ...

  • $main::search_content_type est l'en-tête Content-Type complet fourni par votre serveur. Il peut parfois contenir un type MIME simple, tel que "text/html". Il peut également contenir un type MIME suivi d’autres informations, telles que le codage du jeu de caractères du document, comme "text/html; charset=iso-8859-1".

  • Pour chaque type de document non HTML, $main::search_content_type peut prendre différentes valeurs. Le test de chaque valeur de votre script devient fastidieux. Par exemple, certains documents Word comportent des valeurs de type de contenu "application/msword", "application/vnd.ms-word" ou "application/x-msword". Dans ce cas, $main::search_content_class peut prendre les valeurs suivantes :

    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • texte
  • Dans cet exemple, le test de $main::search_content_class pour "word" correspondrait à l’une des trois valeurs de type de contenu possibles.

  • Si rien n'est imprimé à STDOUT à partir du script de filtrage, le document est utilisé exactement tel qu'il a été téléchargé. Autrement dit, si vous n'avez pas besoin de changer quoi que ce soit dans un document, vous n'avez pas besoin de copier STDIN dans STDOUT pour ce document.

  • Si vous souhaitez supprimer tout le texte d’un document, imprimez un fichier STDOUT valide. Par exemple, pour supprimer complètement tout le texte d’un document HTML, procédez comme suit : print "<html></html>";

Ajouter un script de terminaison

Le script de terminaison est un script Perl exécuté une fois après l’indexation de tous les documents.

Vous utilisez le script de fin conjointement avec un script de filtrage, un script de fin et un script de masques d’URL.

Veillez à recréer l’index de votre site afin que les résultats de votre script d’initialisation soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site Web intermédiaire.

Pour ajouter un script de terminaison

  1. Dans le menu produit, cliquez sur Settings > Filtering > Termination Script.

  2. (Facultatif) Sur la page Termination Script, dans le champ Test URL, saisissez l’URL d’un document sur votre site Web.

    Cliquez sur une option de test pour afficher les modifications apportées au texte HTML brut.

    Consultez le tableau des options de filtrage sous Ajouter un script de filtrage.

    Cliquez sur Test pour tester les scripts de filtrage et les masques d’URL.

    Le fait de cliquer sur Test ne met pas à jour et n'enregistre pas votre script de terminaison.

  3. Dans le champ Termination Script, collez votre script.

  4. (Facultatif) Cliquez sur Check Syntax pour vérifier rapidement la syntaxe de votre script en exécutant les scripts d’initialisation, de filtrage et de terminaison.

    Check Syntax ne met pas à jour et n’enregistre pas votre script.

  5. Cliquez sur Save Changes.

  6. (Facultatif) Recréez l’index de votre site d’évaluation si vous souhaitez prévisualisation les résultats.

    Voir Configuration d’un index incrémentiel d’un site Web intermédiaire.

  7. (Facultatif) Sur la page Termination Script, effectuez l’une des opérations suivantes :

A propos du script de masques d'URL

Le filtrage vous permet de modifier le contenu d’un document Web avant son indexation. Vous pouvez insérer des balises HTML, supprimer du contenu non pertinent et même créer de nouvelles métadonnées HTML basées sur l’URL d’un document, le type MIME et le contenu existant. Le script de masques d’URL est un script Perl qui permet une gestion puissante des chaînes et la souplesse d’une correspondance d’expression régulière.

Pour modifier le contenu des documents qui n’existent que dans une partie spécifique de votre site Web, vous pouvez spécifier des masques d’URL, exclure des masques d’URL ou les deux pour définir les pages appropriées.

Si vous souhaitez modifier uniquement les documents sous "https://www.mysite.com/faqs/", vous pouvez utiliser l’ensemble de masques suivant :

include https://www.mysite.com/faqs/ 
exclude *

Vous pouvez également utiliser une expression régulière dans un script de masque d’URL, comme dans l’exemple suivant :

include regexp ^https://www\.mysite\.com.*/faqs/.*$ 
exclude *

Voir Expressions régulières.

Les masques d’URL par script sont pris en compte dans l’ordre dans lequel vous les avez entrés dans le champ URL Masks. Lorsqu’une URL de document correspond à un masque, ce document est inclus ou exclu en fonction du type de masque. Si une URL de document ne correspond à aucun masque d’URL, le document est inclus uniquement si son type MIME est "text/html". Tous les autres types MIME sont exclus.

Ajouter un script de masque d'URL

Spécifiez l’URL pour inclure des masques et exclure des masques afin de modifier le contenu des documents qui n’existent que dans une portion spécifique de votre site Web.

Avant que les effets des paramètres Masques d’URL ne soient visibles pour les visiteurs, recréez l’index de votre site.

Pour ajouter un script de masque d’URL

  1. Dans le menu produit, cliquez sur Settings > Filtering > URL Masks.

  2. (Facultatif) Sur la page URL Masks, dans le champ Test URL, saisissez l’URL d’un document sur votre site Web, puis cliquez sur Test pour tester l’URL par rapport aux scripts de filtrage et aux masques.

    Le document d’URL de test est téléchargé et utilisé comme entrée STDIN dans le script de filtrage. Ensuite, les scripts de filtrage, d’initialisation et de terminaison sont exécutés. S’il existe une sortie STDOUT du script de filtrage, cette sortie s’affiche dans une nouvelle fenêtre du navigateur.

    Le fait de cliquer sur Test ne met pas à jour et n'enregistre pas votre script.

  3. Dans le champ URL Masks, saisissez un masque d’URL par ligne.

  4. (Facultatif) Cliquez sur Check Syntax pour vérifier rapidement la syntaxe de vos masques d’URL en exécutant les scripts de filtrage, d’initialisation et de terminaison.

    Check Syntax ne met pas à jour et n’enregistre pas votre script.

  5. Cliquez sur Save Changes.

  6. (Facultatif) Recréez l’index de votre site d’évaluation si vous souhaitez prévisualisation les résultats.

    Voir Configuration d’un index incrémentiel d’un site Web intermédiaire.

  7. (Facultatif) Sur la page URL Masks, effectuez l’une des opérations suivantes :

A propos des types de contenu dans le filtrage

Permet de sélectionner les types de contenu à filtrer pour ce compte.

Le texte trouvé dans les types de contenu sélectionnés est converti au format HTML, puis traité à l’aide du script spécifié dans le script de filtrage.

Voir A propos du filtrage de script.

Les types de contenu que vous pouvez sélectionner sont les suivants :

  • DOCUMENTS PDF
  • Documents de texte
  • Films Flash Adobe
  • Fichiers Microsoft Word
  • Fichiers Microsoft Office (OpenXML)
  • Fichiers Microsoft Excel
  • Fichiers Microsoft Powerpoint
  • Texte dans les fichiers de musique MP3

Avant que les effets des paramètres Types de contenu ou les modifications apportées aux paramètres ne soient visibles par les clients, vous devez regénérer l'index de votre site.

Sélection des types de contenu filtrés

Sélectionnez les types de contenu à transmettre au script spécifié dans le script de filtrage.

Voir A propos du filtrage de script.

Pour sélectionner les types de contenu filtrés

  1. Dans le menu produit, cliquez sur Settings > Filtering > Content Types.

  2. Sur la page Content Types, vérifiez les types de contenu à transmettre au script de filtre.

  3. Cliquez sur Save Changes.

  4. (Facultatif) Recréez l’index de votre site d’évaluation si vous souhaitez prévisualisation les résultats.

    Voir Configuration d’un index incrémentiel d’un site Web intermédiaire.

  5. (Facultatif) Sur la page Content Types, effectuez l’une des opérations suivantes :

Sur cette page

Adobe Summit Banner

A virtual event April 27-28.

Expand your skills and get inspired.

Register for free
Adobe Summit Banner

A virtual event April 27-28.

Expand your skills and get inspired.

Register for free