A propos du menu Analyse

Utilisez le menu Analyse pour définir des masques de date et d’URL, des mots de passe, des types de contenu, des connexions, des définitions de formulaire et des points d’entrée d’URL.

A propos des points de terminaison d’URL

La plupart des sites Web comportent un point d’entrée ou une page d'accueil Principale qu’un client visite initialement. Ce point d'entrée principal est l'adresse URL à partir de laquelle le robot de recherche commence l'analyse de l'index. Cependant, si votre site Web comporte plusieurs domaines ou sous-domaines, ou si des parties de votre site ne sont pas liées à partir du point d’entrée Principal, vous pouvez utiliser des points d’entrée URL pour ajouter d’autres points d’entrée.

Toutes les pages de site Web situées en dessous de chaque point d’entrée d’URL spécifié sont indexées. Vous pouvez combiner des points d’entrée d’URL avec des masques pour contrôler exactement quelles parties d’un site Web vous souhaitez indexer. Vous devez recréer l’index de votre site Web avant que les effets des paramètres de points de terminaison d’URL ne soient visibles par les clients.

Le point d’entrée principal est généralement l’URL du site Web que vous souhaitez indexer et rechercher. Vous configurez ce point d’entrée principal dans Paramètres du compte.

Voir Configuration des paramètresde votre compte.

Après avoir spécifié le point d’entrée de l’URL principale, vous pouvez éventuellement spécifier des points d’entrée supplémentaires que vous souhaitez analyser dans l’ordre. La plupart du temps, vous spécifiez des points d’entrée supplémentaires pour les pages Web qui ne sont pas liées à partir des pages situées sous le point d’entrée principal. Spécifiez d’autres points d’entrée lorsque votre site Web s’étend sur plusieurs domaines, comme dans l’exemple suivant :

https://www.domain.com/

https://www.domain.com/not_linked/but_search_me_too/

https://more.domain.com/

Vous pouvez qualifier chaque point d’entrée avec un ou plusieurs des mots-clés séparés par des espaces dans le tableau ci-dessous. Ces mots-clés affectent la façon dont la page est indexée.

Important: Veillez à séparer un mot-clé donné du point d'entrée et de l'autre par un espace ; une virgule n'est pas un séparateur valide.

Mot-clé

Description

noindex

Si vous ne souhaitez pas indexer le texte sur la page du point d’entrée, mais que vous souhaitez suivre les liens de la page, ajoutez noindex après le point d’entrée.

Séparez le mot-clé du point d'entrée par un espace, comme dans l'exemple suivant :

https://www.my-additional-domain.com/more_pages/main.html noindex

Ce mot-clé équivaut à une balise meta robots avec content="noindex" ) entre les <head> ... </head> balises de la page du point d’entrée.

nofollow

Si vous souhaitez indexer le texte dans la page du point d’entrée mais que vous ne souhaitez pas suivre les liens de la page, ajoutez nofollow après le point d’entrée.

Séparez le mot-clé du point d'entrée par un espace, comme dans l'exemple suivant :

https://www.domain.com/not_linked/directory_listing&nbsp;nofollow

Ce mot-clé est équivalent à une balise meta robots avec content="nofollow" entre la balise <head> ... </head> d’une page de point d’entrée.

formulaire

Lorsque le point d’entrée est une page de connexion, form est généralement utilisé de sorte que le robot de recherche puisse envoyer le formulaire de connexion et recevoir les cookies appropriés avant d’analyser le site Web. Lorsque le mot-clé "formulaire" est utilisé, la page du point d’entrée n’est pas indexée et le robot de recherche ne marque pas la page du point d’entrée comme étant analysée. Utilisez nofollow si vous ne souhaitez pas que le robot de recherche suive les liens de la page.

Voir aussi A propos des typesde contenu.

Voir aussi A propos du connecteurd’index.

ajouter plusieurs points d’entrée d’URL à indexer

Si votre site Web comporte plusieurs domaines ou sous-domaines et que vous souhaitez qu’ils soient analysés, vous pouvez utiliser des points de saisie d’URL pour ajouter d’autres URL.

Pour définir le point d’entrée d’URL principal de votre site Web, utilisez Paramètres du compte.

Voir Configuration des paramètresde votre compte.

Pour ajouter plusieurs points d’entrée d’URL à indexer

  1. Dans le menu produit, cliquez sur Settings > Crawling > URL Entrypoints.

  2. Sur la URL Entrypoints page, dans le Entrypoints champ, entrez une adresse URL par ligne.

  3. (Facultatif) Dans la liste Add Index Connector Configurations déroulante, sélectionnez un connecteur d’index à ajouter en tant que point d’entrée pour l’indexation.

    La liste déroulante n’est disponible que si vous avez déjà ajouté une ou plusieurs définitions de connecteur d’index.

    Voir Ajoute d’une définitiondu connecteur d’index.

  4. Cliquez sur Save Changes.

  5. (Facultatif) Utilisez l’une des méthodes suivantes :

A propos des masques d’URL

Les masques URL sont des modèles qui déterminent quels documents de votre site Web les robots de recherche indexes ou non.

Veillez à recréer l’index de votre site afin que les résultats de vos masques d’URL soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site Webintermédiaire.

Vous pouvez utiliser les deux types de masques d’URL suivants :

  • Inclure les masques d’URL
  • Exclure les masques d’URL

Insérez des masques d’URL pour indiquer au robot de recherche d’indexer les documents qui correspondent au modèle du masque.

Exclure les masques d’URL pour indiquer au robot de recherche d’indexer les documents correspondants.

Lorsque le robot de recherche voyage d’un lien à l’autre à travers votre site Web, il rencontre des URL et recherche des masques qui correspondent à ces URL. La première correspondance détermine si l’URL doit être incluse ou exclue de l’index. Si aucun masque ne correspond à une URL rencontrée, cette URL est ignorée de l’index.

Inclure les masques d’URL pour vos URL de point d’entrée est automatiquement généré. Ce comportement garantit que tous les documents rencontrés sur votre site Web sont indexés. Il supprime également les liens qui "quittent" votre site Web. Par exemple, si une page indexée renvoie à https://www.yahoo.com, le robot de recherche n’indexe pas cette URL car elle ne correspond pas au masque d’inclusion généré automatiquement par l’URL du point d’entrée.

Chaque masque d’URL que vous spécifiez doit se trouver sur une ligne distincte.

Le masque peut spécifier les éléments suivants :

  • Un chemin complet comme dans https://www.mydomain.com/products.html.

  • Chemin partiel comme dans https://www.mydomain.com/products.

  • URL qui utilise des caractères génériques comme dans https://www.mydomain.com/*.html.

  • Expression régulière (pour les utilisateurs avancés).

    Pour faire d'un masque une expression régulière, insérez le mot-clé regexp entre le type de masque ( exclude ou include) et le masque d'URL.

Voici un exemple simple de masque d’URL d’exclusion :

exclude https://www.mydomain.com/photos

Dans la mesure où cet exemple est un masque d’URL d’exclusion, tout document qui correspond au modèle n’est pas indexé. Le modèle correspond à tout élément rencontré, à la fois aux fichiers et aux dossiers, de sorte que https://www.mydomain.com/photos.html et https://www.mydomain.com/photos/index.html, qui correspondent tous deux à l’URL d’exclusion, ne soient pas indexés. Pour ne faire correspondre que les fichiers du /photos/ dossier, le masque d’URL doit contenir une barre oblique à la fin, comme dans l’exemple suivant :

exclude https://www.mydomain.com/photos/

L'exemple de masque d'exclusion suivant utilise un caractère générique. Il indique au robot de recherche de ne pas prendre en compte les fichiers avec l'extension ".pdf". Le robot de recherche n'ajoute pas ces fichiers à votre index.

exclude *.pdf

Un simple masque d’URL d’inclusion est le suivant :

include https://www.mydomain.com/news/

Seuls les documents liés par une série de liens à partir d’un point d’entrée d’URL ou utilisés comme point d’entrée d’URL sont indexés. La simple inscription d’une URL de document en tant que masque d’URL d’inclusion n’indexe pas un document non lié. Pour ajouter des documents non liés à votre index, vous pouvez utiliser la fonction Points de saisie des URL.

Voir A propos des points de saisied’URL.

L’inclusion de masques et l’exclusion de masques peuvent fonctionner ensemble. Vous pouvez exclure une grande partie de votre site Web de l’indexation en créant un masque d’URL d’exclusion tout en incluant une ou plusieurs des pages exclues avec un masque d’URL d’inclusion. Supposons, par exemple, que votre URL de point d’entrée soit la suivante :

https://www.mydomain.com/photos/

Le robot de recherche analyse et indexe toutes les pages sous /photos/summer/, /photos/spring/ et /photos/fall/ (en supposant qu’il existe des liens vers au moins une page dans chaque répertoire à partir du photos dossier). Ce comportement se produit car les chemins d'accès aux liens permettent au robot de recherche de trouver les documents dans les dossiers /summer/, /spring/et /fall/, et les URL de dossier correspondent au masque d'inclusion généré automatiquement par l'URL du point d'entrée.

Vous pouvez choisir d’exclure toutes les pages du /fall/ dossier contenant un masque d’URL d’exclusion, comme dans l’exemple suivant :

exclude https://www.mydomain.com/photos/fall/

Ou, incluez uniquement /photos/fall/redleaves4.html dans l’index avec le masque d’URL suivant :

include https://www.mydomain.com/photos/fall/redleaves4.html

Pour que les deux exemples de masque ci-dessus fonctionnent comme prévu, le masque d’inclusion est répertorié en premier, comme dans l’exemple suivant :

include https://www.mydomain.com/photos/fall/redleaves4.html 
exclude https://www.mydomain.com/photos/fall/

Comme le robot de recherche suit les instructions dans l’ordre dans lequel elles sont répertoriées, le robot de recherche inclut d’abord /photos/fall/redleaves4.html, puis exclut le reste des fichiers du /fall dossier.

Si les instructions sont spécifiées de la manière opposée, comme dans les cas suivants :

exclude https://www.mydomain.com/photos/fall/ 
include https://www.mydomain.com/photos/fall/redleaves4.html

Ensuite, /photos/fall/redleaves4.html n’est pas inclus, même si le masque indique qu’il est inclus.

Un masque d’URL qui s’affiche en premier est toujours prioritaire sur un masque d’URL qui s’affiche plus loin dans les paramètres du masque. De plus, si le robot de recherche rencontre une page qui correspond à un masque d’URL d’inclusion et un masque d’URL d’exclusion, le masque qui est répertorié en premier est toujours prioritaire.

Voir Configuration d’un index incrémentiel d’un site Webintermédiaire.

A propos de l'utilisation de mots-clés avec des masques d'URL

Vous pouvez définir chaque masque d’inclusion avec un ou plusieurs mots-clés séparés par des espaces, ce qui a une incidence sur la façon dont les pages correspondantes sont indexées.

Une virgule n'est pas valide comme séparateur entre le masque et le mot-clé ; vous ne pouvez utiliser que des espaces.

Mot-clé

Description

noindex

Si vous ne souhaitez pas indexer le texte sur les pages qui correspondent au masque d’URL, mais que vous souhaitez suivre les liens de pages correspondants, ajoutez- noindex les après le masque d’URL d’inclusion. Veillez à séparer le mot-clé du masque par un espace, comme dans l'exemple suivant :

include&nbsp;*.swf&nbsp;noindex

L'exemple ci-dessus indique que le robot de recherche suit tous les liens des fichiers avec l' .swf extension, mais désactive l'indexation de tout le texte contenu dans ces fichiers.

Le noindex mot-clé est équivalent à une balise meta de robot avec content="noindex" entre les balises <head>...</head> des pages correspondantes.

nofollow

Si vous souhaitez indexer le texte sur les pages qui correspondent au masque d’URL, mais que vous ne souhaitez pas suivre les liens de la page correspondante, ajoutez nofollow après le masque d’URL d’inclusion. Veillez à séparer le mot-clé du masque par un espace, comme dans l'exemple suivant :

include&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

Le nofollow mot-clé est équivalent à une balise meta de robot avec content="nofollow" entre les balises <head>...</head> des pages correspondantes.

regexp

Utilisé pour inclure et exclure des masques.

Tout masque d’URL précédé d’ regexp est traité comme une expression régulière. Si le robot de recherche rencontre des documents qui correspondent à un masque URL d’expression standard exclus, ces documents ne sont pas indexés. Si le robot de recherche rencontre des documents qui correspondent à un masque URL d’expression standard inclus, ces documents sont indexés. Supposons, par exemple, que vous ayez le masque d’URL suivant :

exclude&nbsp;regexp&nbsp;^.*/products/.*\.html$

Le robot de recherche exclut les fichiers correspondants, tels que https://www.mydomain.com/products/page1.html

Si vous aviez les éléments suivants à exclure le masque d’URL d’expression classique :

exclude&nbsp;regexp&nbsp;^.*\?..*$

Le robot de recherche ne doit pas inclure d’URL contenant un paramètre CGI tel que https://www.mydomain.com/cgi/prog/?arg1=val1&arg2=val2 .

Si vous aviez les éléments suivants, incluez un masque URL d’expression normal :

include&nbsp;regexp&nbsp;^.*\.swf$&nbsp;noindex

Le robot de recherche suit tous les liens des fichiers avec l'extension ".swf". Le noindex mot-clé indique également que le texte des fichiers correspondants n'est pas indexé.

Voir Expressions régulières .

ajouter des masques d’URL pour indexer ou non des parties de votre site Web

Vous pouvez utiliser URL Masks pour définir les parties de votre site Web que vous souhaitez analyser ou non et les indexer.

Utilisez le champ Tester les masques d’URL pour vérifier si un document est inclus ou non après l’indexation.

Veillez à recréer l’index de votre site afin que les résultats de vos masques d’URL soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site Webintermédiaire.

Pour ajouter des masques d’URL à l’index ou non des parties de votre site Web

  1. Dans le menu produit, cliquez sur Settings > Crawling > URL Masks.

  2. (Facultatif) Sur la URL Masks page, dans le Test URL Masks champ, saisissez un masque d’URL de test sur votre site Web, puis cliquez sur Test.

  3. Dans le URL Masks champ, tapez include (pour ajouter un site Web à analyser et à indexer) ou exclude (pour empêcher l’analyse et l’indexation d’un site Web), suivi de l’adresse du masque d’URL.

    Entrez une adresse de masque d'URL par ligne. Exemple :

    include https://www.mycompany.com/summer 
    include https://www.mycompany.com/spring 
    exclude regexp .*\.xml 
    exclude https://www.mycompany.com/fall
    
  4. Cliquez sur Save Changes.

  5. (Facultatif) Utilisez l’une des méthodes suivantes :

A propos des masques de date

Vous pouvez utiliser des masques de date pour inclure ou exclure des fichiers de vos résultats de recherche en fonction de l’âge du fichier.

Veillez à recréer l’index de votre site afin que les résultats de vos masques d’URL soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site Webintermédiaire.

Vous pouvez utiliser les deux types de masques de date suivants :

  • Inclure les masques de date ("inclure-jours" et "inclure-date")

    Inclure les fichiers d’index des masques de date datés au plus tard à la date spécifiée.

  • Exclure les masques de date ("jours exclus" et "date exclus")

    Exclure les fichiers d’index des masques de date datés au plus tard à la date spécifiée.

Par défaut, la date du fichier est déterminée à partir des informations de balise meta. Si aucune balise Meta n’est trouvée, la date d’un fichier est déterminée à partir de l’en-tête HTTP reçu du serveur lorsque le robot de recherche télécharge un fichier.

Chaque masque de date que vous spécifiez doit se trouver sur une ligne distincte.

Le masque peut spécifier les éléments suivants :

  • Un chemin complet comme dans https://www.mydomain.com/products.html
  • Un chemin partiel comme dans https://www.mydomain.com/products
  • URL utilisant des caractères génériques https://www.mydomain.com/*.html
  • Une expression régulière. Pour faire d’un masque une expression régulière, insérez le mot-clé regexp avant l’URL.

Les deux incluent et excluent des masques de dates peuvent spécifier une date de l’une des deux manières suivantes. Les masques ne sont appliqués que si les fichiers correspondants ont été créés au plus tard à la date spécifiée :

  1. Un certain nombre de jours. Supposons, par exemple, que votre masque de date soit le suivant :

    exclude-days 30 https://www.mydomain.com/docs/archive/)
    

    Le nombre de jours spécifié est comptabilisé à nouveau. Si le fichier est daté le ou avant la date d'arrivée, le masque est appliqué.

  2. Date réelle utilisant le format AAAA-MM-JJ. Supposons, par exemple, que votre masque de date soit le suivant :

    include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
    

    Si le document correspondant est daté au plus tard à la date spécifiée, le masque de date est appliqué.

Voici un exemple simple de masque de date d’exclusion :

exclude-days 90 https://www.mydomain.com/docs/archive

Puisqu’il s’agit d’un masque de date d’exclusion, tout fichier qui correspond au modèle n’est pas indexé et a 90 jours ou plus. Lorsque vous excluez un document, aucun texte n’est indexé et aucun lien n’est suivi à partir de ce fichier. Le fichier est effectivement ignoré. Dans cet exemple, les fichiers et les dossiers peuvent correspondre au modèle d’URL spécifié. Notez que les deux https://www.mydomain.com/docs/archive.html et https://www.mydomain.com/docs/archive/index.html correspondent au modèle et ne sont pas indexés s’ils ont 90 jours ou plus. Pour ne faire correspondre que les fichiers du /docs/archive/ dossier, le masque de date doit contenir une barre oblique à la fin, comme dans l’exemple suivant :

exclude-days 90 https://www.mydomain.com/docs/archive/

Les masques de date peuvent également être utilisés avec des cartes génériques. Le masque d’exclusion suivant indique au robot de recherche de ne pas prendre en compte les fichiers dont l’extension ".pdf" est datée le ou avant 2011-02-15. Le robot de recherche n'ajoute aucun fichier correspondant à votre index.

exclude-date 2011-02-15 *.pdf

L’option Inclure le masque de date a l’air similaire, seuls les fichiers correspondants sont ajoutés à l’index. L'exemple suivant inclut un masque de date qui indique au robot de recherche d'indexer le texte à partir de tous les fichiers qui ont zéro jour ou plus dans la /docs/archive/manual/ zone du site Web.

include-days 0 https://www.mydomain.com/docs/archive/manual/

L’inclusion de masques et l’exclusion de masques peuvent fonctionner ensemble. Par exemple, vous pouvez exclure une grande partie de votre site Web de l’indexation en créant un masque de date d’exclusion tout en incluant une ou plusieurs des pages exclues avec un masque d’URL d’inclusion. Si l’URL de votre point d’entrée est la suivante :

https://www.mydomain.com/archive/

Le robot de recherche analyse et indexe toutes les pages sous /archive/summer/, /archive/spring/et /archive/fall/ (en supposant qu’il existe des liens vers au moins une page dans chaque dossier du archive ). Ce comportement se produit car les chemins d’accès aux liens permettent au robot de recherche de "trouver" les fichiers dans les /summer/, /spring/et /fall/ dossiers et les URL de dossier correspondent au masque d’inclusion généré automatiquement par l’URL du point d’entrée.

Voir A propos des points de saisied’URL.

Voir Configuration des paramètresde votre compte.

Vous pouvez choisir d’exclure toutes les pages de plus de 90 jours dans le /fall/ dossier avec un masque de date d’exclusion, comme dans l’exemple suivant :

exclude-days 90 https://www.mydomain.com/archive/fall/

Vous pouvez inclure uniquement /archive/fall/index.html (quel que soit l’âge du fichier (tout fichier de 0 jour ou plus correspond) dans l’index avec le masque de date suivant :

include-days 0 https://www.mydomain.com/archive/fall/index.html

Pour que les deux exemples de masque ci-dessus fonctionnent comme prévu, vous devez d’abord liste le masque d’inclusion comme dans l’exemple suivant :

include-days 0 https://www.mydomain.com/archive/fall/index.html 
exclude-days 90 https://www.mydomain.com/archive/fall/

Comme le robot de recherche suit les instructions dans l’ordre spécifié, il inclut d’abord /archive/fall/index.html, puis exclut le reste des fichiers du /fall dossier.

Si les instructions sont spécifiées de la manière opposée, comme dans les cas suivants :

exclude-days 90 https://www.mydomain.com/archive/fall/ 
include-days 0 https://www.mydomain.com/archive/fall/index.html 

Alors /archive/fall/index.html n'est pas inclus, même si le masque spécifie qu'il doit l'être. Un masque de date qui apparaît en premier est toujours prioritaire sur un masque de date qui peut apparaître ultérieurement dans les paramètres du masque. De plus, si le robot de recherche rencontre une page qui correspond à la fois à un masque de date d’inclusion et à un masque de date d’exclusion, le masque répertorié en premier est toujours prioritaire.

Voir Configuration d’un index incrémentiel d’un site Webintermédiaire.

A propos de l'utilisation de mots-clés avec des masques de date

Vous pouvez définir chaque masque d’inclusion avec un ou plusieurs mots-clés séparés par des espaces, ce qui a une incidence sur la façon dont les pages correspondantes sont indexées.

Une virgule n'est pas valide comme séparateur entre le masque et le mot-clé ; vous ne pouvez utiliser que des espaces.

Mot-clé

Description

noindex

Si vous ne souhaitez pas indexer le texte sur les pages datées au plus tard à la date spécifiée par le masque d’inclusion, ajoutez noindex après le masque de date d’inclusion, comme dans l’exemple suivant :

include-days&nbsp;10&nbsp;*.swf&nbsp;noindex

Veillez à séparer le mot-clé du masque par un espace.

L'exemple ci-dessus indique que le robot de recherche suit tous les liens des fichiers avec l'extension ".swf" qui ont au moins 10 jours. Cependant, il désactive l'indexation de tout le texte contenu dans ces fichiers.

Vous pouvez vous assurer que le texte des fichiers plus anciens n’est pas indexé mais qu’il suit tout de même tous les liens de ces fichiers. Dans ce cas, utilisez un masque de date d’inclusion avec le mot-clé "noindex" au lieu d’utiliser un masque de date d’exclusion.

nofollow

Si vous souhaitez indexer le texte sur les pages dont la date est antérieure ou égale à la date spécifiée par le masque d’inclusion, mais que vous ne souhaitez pas suivre les liens de la page correspondante, ajoutez nofollow après le masque de date d’inclusion, comme dans l’exemple suivant :

include-days&nbsp;8&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

Veillez à séparer le mot-clé du masque par un espace.

Le nofollow mot-clé est équivalent à une balise meta de robot avec content="nofollow" entre la balise <head>...</head> des pages correspondantes.

server-date

Utilisé pour inclure et exclure des masques.

Le robot de recherche télécharge et analyse généralement chaque fichier avant de vérifier les masques de date. Ce comportement se produit car certains types de fichiers peuvent spécifier une date dans le fichier lui-même. Par exemple, un document HTML peut inclure des balises meta qui définissent la date du fichier.

Si vous souhaitez exclure de nombreux fichiers en fonction de leur date et que vous ne souhaitez pas charger inutilement vos serveurs, vous pouvez utiliser server-date après l’URL dans le masque de date.

Ce mot-clé indique au robot de recherche de faire confiance à la date du fichier renvoyé par votre serveur au lieu d'analyser chaque fichier. Par exemple, le masque de date d’exclusion suivant ignore les pages qui correspondent à l’URL si les documents sont de 90 jours ou plus, selon la date renvoyée par le serveur dans les en-têtes HTTP :

exclude-days&nbsp;90&nbsp;https://www.mydomain.com/docs/archive&nbsp;server-date

Si la date renvoyée par le serveur est postérieure à 90 jours ou plus, server-date indique que les documents exclus ne doivent pas être téléchargés à partir de votre serveur. Le résultat signifie un temps d'indexation plus rapide pour vos documents et une charge réduite placée sur vos serveurs. Si elle server-date n’est pas spécifiée, le robot de recherche ignore la date renvoyée par le serveur dans les en-têtes HTTP. En revanche, chaque fichier est téléchargé et vérifié pour vérifier si la date est spécifiée. Si aucune date n’est spécifiée dans le fichier, le robot de recherche utilise alors la date renvoyée par le serveur.

Vous ne devez pas utiliser server-date si vos fichiers contiennent des commandes qui remplacent la date du serveur.

regexp

Utilisé pour inclure et exclure des masques.

Tout masque de date précédé par regexp est traité comme une expression régulière.

Si le robot de recherche détecte des fichiers qui correspondent à un masque de date d’expression standard exclus, il n’indexe pas ces fichiers.

Si le robot de recherche rencontre des fichiers qui correspondent à un masque de date d’expression standard inclus, il indexe ces documents.

Supposons, par exemple, que vous ayez le masque de date suivant :

exclude-days&nbsp;180&nbsp;regexp&nbsp;.*archive.*

Le masque indique au robot de recherche d’exclure les fichiers correspondants de 180 jours ou plus. Autrement dit, les fichiers qui contiennent le mot "archive" dans leur URL.

Voir Expressions régulières .

ajouter des masques de date pour indexer ou non des parties de votre site Web

Vous pouvez utiliser des masques de date pour inclure ou exclure des fichiers des résultats de recherche des clients en fonction de l’âge des fichiers.

Utilisez les Test Date champs et Test URL pour vérifier si un fichier est inclus ou non après l’indexation.

Veillez à recréer l’index de votre site afin que les résultats de vos masques d’URL soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site Webintermédiaire.

Pour ajouter des masques de date à l’index ou non des parties de votre site Web

  1. Dans le menu produit, cliquez sur Settings > Crawling > Date Masks.

  2. (Facultatif) Sur la Date Masks page, dans le Test Date champ, saisissez une date au format AAAA-MM-JJ (par exemple 2011-07-25); dans le Test URL champ, saisissez un masque d’URL à partir de votre site Web, puis cliquez sur Test.

  3. Dans le Date Masks champ, entrez une adresse de masque de date par ligne.

  4. Cliquez sur Save Changes.

  5. (Facultatif) Utilisez l’une des méthodes suivantes :

A propos des mots de passe

Pour accéder à des parties de votre site Web protégées par l’authentification de base HTTP, vous pouvez ajouter un ou plusieurs mots de passe.

Avant que les effets des paramètres Mot de passe ne soient visibles par les clients, vous devez regénérer l'index de votre site.

Voir Configuration d’un index incrémentiel d’un site Webintermédiaire.

Sur la Passwords page, vous tapez chaque mot de passe sur une seule ligne. Le mot de passe se compose d’une URL ou d’un domaine, d’un nom d’utilisateur et d’un mot de passe, comme dans l’exemple suivant :

https://www.mydomain.com/ myname mypassword

Au lieu d’utiliser un chemin d’URL, comme ci-dessus, vous pouvez également spécifier un domaine.

Pour déterminer le domaine approprié à utiliser, ouvrez une page Web protégée par un mot de passe dans un navigateur et regardez la boîte de dialogue "Entrez le mot de passe réseau".

Dans ce cas, le nom du domaine est "Mon domaine du site".

En utilisant le nom de domaine ci-dessus, votre mot de passe peut se présenter comme suit :

My Site Realm myusername mypassword

Si votre site Web comporte plusieurs domaines, vous pouvez créer plusieurs mots de passe en entrant un nom d’utilisateur et un mot de passe pour chaque domaine sur une ligne distincte, comme dans l’exemple suivant :

Realm1 name1 password1 
Realm2 name2 password2 
Realm3 name3 password3

Vous pouvez mélanger des mots de passe qui contiennent des URL ou des domaines afin que votre liste de mot de passe ressemble à ce qui suit :

Realm1 name1 password1 
https://www.mysite.com/path1/path2 name2 password2 
Realm3 name3 password3 
Realm4 name4 password4 
https://www.mysite.com/path1/path5 name5 password5 
https://www.mysite.com/path6 name6 password6

Dans la liste ci-dessus, le premier mot de passe est utilisé qui contient un domaine ou une URL correspondant à la demande d’authentification du serveur. Même si le fichier https://www.mysite.com/path1/path2/index.html se trouve Realm3, par exemple, name2 et password2 est utilisé car le mot de passe défini avec l'URL est répertorié au-dessus de celui défini avec le domaine.

ajouter des mots de passe pour accéder aux zones de votre site Web qui nécessitent une authentification

Vous pouvez utiliser des mots de passe pour accéder aux zones protégées par mot de passe de votre site Web à des fins d’analyse et d’indexation.

Avant que les effets de votre mot de passe ne soient visibles pour les clients, veillez à recréer l'index de votre site.

Voir Configuration d’un index incrémentiel d’un site Webintermédiaire.

Pour ajouter des mots de passe pour accéder aux zones de votre site Web qui nécessitent une authentification

  1. Dans le menu produit, cliquez sur Settings > Crawling > Passwords.

  2. Sur la Passwords page, dans le Passwords champ, saisissez un domaine ou une URL, ainsi que son nom d’utilisateur et son mot de passe associés, séparés par un espace.

    Exemple de mot de passe de domaine et d’URL sur des lignes distinctes :

    Realm1 name1 password1 
    https://www.mysite.com/path1/path2 name2 password2
    

    Ajoutez uniquement un mot de passe par ligne.

  3. Cliquez sur Save Changes.

  4. (Facultatif) Utilisez l’une des méthodes suivantes :

A propos des types de contenu

Vous pouvez utiliser Content Types pour sélectionner les types de fichiers à analyser et à indexer pour ce compte.

Les types de contenu que vous pouvez analyser et indexer incluent les documents PDF, les documents de texte, les films de Flash d'Adobe, les fichiers provenant d'applications Microsoft Office telles que Word, Excel et Powerpoint, ainsi que le texte des fichiers MP3. Le texte qui se trouve dans les types de contenu sélectionnés est recherché avec tout le reste du texte de votre site Web.

Avant que les effets des paramètres Types de contenu ne soient visibles par les clients, vous devez regénérer l'index de votre site.

Voir Configuration d’un index incrémentiel d’un site Webintermédiaire.

A propos de l’indexation des fichiers de musique MP3

Si vous sélectionnez l’option Text in MP3 Music Files sur la Content Types page, un fichier MP3 est analysé et indexé de deux manières. La première méthode la plus courante consiste à utiliser une balise href d’ancrage dans un fichier HTML, comme dans l’exemple suivant :

<a href="MP3-file-URL"></a>

La deuxième méthode consiste à entrer l’URL du fichier MP3 en tant que point d’entrée d’URL.

Voir A propos des points de saisied’URL.

Un fichier MP3 est reconnu par son type MIME "audio/mpeg".

Sachez que les fichiers de musique MP3 peuvent être très volumineux, même s’ils ne contiennent généralement qu’une petite quantité de texte. Par exemple, les fichiers MP3 peuvent éventuellement stocker des éléments tels que le nom de l’album, le nom de l’artiste, le titre de la chanson, le genre de chanson, l’année de publication et un commentaire. Ces informations sont stockées à la toute fin du fichier dans ce qu'on appelle la BALISE. Les fichiers MP3 contenant des informations TAG sont indexés de la manière suivante :

  • Le titre de la chanson est traité comme le titre d’une page HTML.
  • Le commentaire est traité comme une description définie pour une page HTML.
  • Le genre est traité comme un mot-clé défini pour une page HTML.
  • Le nom de l’artiste, le nom de l’album et l’année de publication sont traités comme le corps d’une page HTML.

Notez que chaque fichier MP3 analysé et indexé sur votre site Web compte comme une page.

Si votre site Web contient de nombreux fichiers MP3 volumineux, vous pouvez dépasser la limite d’octets d’indexation de votre compte. Si cela se produit, vous pouvez désélectionner Text in MP3 Music Files la page Content Types afin d’empêcher l’indexation de tous les fichiers MP3 de votre site Web.

Si vous souhaitez uniquement empêcher l’indexation de certains fichiers MP3 sur votre site Web, vous pouvez effectuer l’une des opérations suivantes :

  • Entourez les balises d’ancrage qui pointent vers les fichiers MP3 avec <nofollow> et </nofollow> des balises. Le robot de recherche ne suit pas les liens entre ces balises.

  • ajoutez les URL des fichiers MP3 en tant que masques d’exclusion.

    Voir A propos des masquesURL.

Sélection des types de contenu à analyser et à indexer

Vous pouvez utiliser Content Types pour sélectionner les types de fichiers à analyser et à indexer pour ce compte.

Les types de contenu que vous pouvez analyser et indexer incluent les documents PDF, les documents de texte, les films de Flash d'Adobe, les fichiers provenant d'applications Microsoft Office telles que Word, Excel et Powerpoint, ainsi que le texte des fichiers MP3. Le texte qui se trouve dans les types de contenu sélectionnés est recherché avec tout le reste du texte de votre site Web.

Avant que les effets des paramètres Types de contenu ne soient visibles par les clients, vous devez regénérer l'index de votre site.

Voir Configuration d’un index incrémentiel d’un site Webintermédiaire.

Pour analyser et indexer des fichiers MP3 chinois, japonais ou coréens, procédez comme suit. Ensuite, dans Settings > Metadata > Injections, spécifiez le jeu de caractères utilisé pour coder les fichiers MP3.

Voir A propos des injections.

Pour sélectionner les types de contenu à analyser et à indexer

  1. Dans le menu produit, cliquez sur Settings > Crawling > Content Types.

  2. Sur la Content Types page, vérifiez les types de fichiers que vous souhaitez analyser et indexer sur votre site Web.

  3. Cliquez sur Save Changes.

  4. (Facultatif) Utilisez l’une des méthodes suivantes :

A propos des connexions

Vous pouvez utiliser Connections pour ajouter jusqu’à dix connexions HTTP que le robot de recherche utilise pour indexer votre site Web.

L’augmentation du nombre de connexions peut réduire considérablement le temps nécessaire à l’exécution d’une analyse et d’un index. Notez toutefois que chaque connexion supplémentaire augmente la charge sur votre serveur.

ajouter des connexions pour augmenter la vitesse d'indexation

Vous pouvez réduire le temps nécessaire à l’indexation de votre site Web en utilisant Connexions pour augmenter le nombre de connexions HTTP simultanées utilisées par l’analyseur de liens. Vous pouvez ajouter jusqu'à dix connexions.

Notez que chaque connexion supplémentaire augmente la charge qui est placée sur votre serveur.

Pour ajouter des connexions pour augmenter la vitesse d'indexation

  1. Dans le menu produit, cliquez sur Settings > Crawling > Connections.

  2. Sur la Parallel Indexing Connections page, dans le Number of Connections champ, entrez le nombre de connexions (1-10) à ajouter.

  3. Cliquez sur Save Changes.

  4. (Facultatif) Utilisez l’une des méthodes suivantes :

A propos de l’envoi de formulaire

Vous pouvez utiliser Envoi de formulaire pour vous aider à reconnaître et à traiter les formulaires de votre site Web.

Lors de l’analyse et de l’indexation de votre site Web, chaque formulaire rencontré est comparé aux définitions de formulaire que vous avez ajoutées. Si un formulaire correspond à une définition de formulaire, le formulaire est envoyé pour indexation. Si un formulaire correspond à plusieurs définitions, le formulaire est envoyé une fois pour chaque définition correspondante.

ajouter des définitions de formulaire pour l’indexation de formulaires sur votre site Web

Vous pouvez vous servir Form Submission d’une aide pour traiter les formulaires qui sont reconnus sur votre site Web à des fins d’indexation.

Veillez à recréer l’index de votre site afin que les résultats de vos modifications soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site Webintermédiaire.

Pour ajouter des définitions de formulaire pour l’indexation de formulaires sur votre site Web

  1. Dans le menu produit, cliquez sur Settings > Crawling > Form Submission.

  2. Sur la Form Submission page, cliquez sur Add New Form.

  3. Sur la Add Form Definition page, définissez les Form Recognition options et Form Submission .

    Les cinq options de la Form Recognition section de la Form Definition page permettent d’identifier les formulaires de vos pages Web qui peuvent être traités.

    Les trois options de la Form Submission section permettent de spécifier les paramètres et les valeurs qui sont envoyés avec un formulaire à votre serveur Web.

    Saisissez un paramètre de reconnaissance ou d’envoi par ligne. Chaque paramètre doit inclure un nom et une valeur.

    Option

    Description

    Reconnaissance de formulaire

    Masque d’URL de page

    Identifiez la ou les pages Web qui contiennent le formulaire. Pour identifier un formulaire qui s’affiche sur une seule page, saisissez l’URL de cette page, comme dans l’exemple suivant :

    https://www.mydomain.com/login.html

    Pour identifier les formulaires qui s’affichent sur plusieurs pages, spécifiez un masque d’URL qui utilise des caractères génériques pour décrire les pages. Pour identifier les formulaires rencontrés sur une page ASP sous https://www.mydomain.com/register/ , par exemple, vous devez spécifier les éléments suivants :

    https://www.mydomain.com/register/*.asp&nbsp;

    Vous pouvez également utiliser une expression régulière pour identifier plusieurs pages. Il vous suffit de spécifier le regexp mot-clé avant le masque d’URL, comme dans l’exemple suivant :

    regexp&nbsp;^https://www\.mydomain\.com/.*/login\.html$

    Masque d’URL d’action

    Identifie l’attribut d’action de la <form> balise .

    Comme le masque d’URL de page, le masque d’URL d’action peut prendre la forme d’une seule URL, d’une URL avec des caractères génériques ou d’une expression régulière.

    Le masque d’URL peut être l’un des suivants :

    • Chemin complet, comme dans l’exemple suivant : https://www.mydomain.com/products.html
    • Chemin d’accès partiel comme dans l’exemple suivant : https://www.mydomain.com/products
    • URL qui utilise des caractères génériques comme dans l’exemple suivant : https://www.mydomain.com/*.html
    • Expression régulière telle que : regexp&nbsp^https://www\.mydomain\.com/.*/login\.html$

    Si vous ne souhaitez pas indexer le texte sur des pages identifiées par un masque d’URL ou par un masque d’URL d’action, ou si vous ne souhaitez pas que les liens soient suivis sur ces pages, vous pouvez utiliser les noindex mots-clés et les nofollow mots-clés. Vous pouvez ajouter ces mots-clés à vos masques à l’aide de masques d’URL ou de points d’entrée.

    Voir A propos des points de saisie d’URL .

    Voir A propos des masques d’URL .

    Masque de nom de formulaire

    Identifie les formulaires si les <form> balises de vos pages Web contiennent un attribut name.

    Vous pouvez utiliser un nom simple ( login_form ), un nom avec un caractère générique ( form* ) ou une expression normale ( regexp ^.*authorize.*$ ).

    En règle générale, vous pouvez laisser ce champ vide, car les formulaires n’ont généralement pas d’attribut name.

    Masque d’ID de formulaire

    Identifie les formulaires si les <form> balises de vos pages Web contiennent un attribut id.

    Vous pouvez utiliser un nom simple ( login_form ), un nom avec un caractère générique ( form* ) ou une expression normale ( regexp ^.*authorize.*$ ).

    En règle générale, vous pouvez laisser ce champ vide, car les formulaires n’ont généralement pas d’attribut name.

    Paramètres

    Identifiez les formulaires qui contiennent ou ne contiennent pas un paramètre nommé ou un paramètre nommé avec une valeur spécifique.

    Par exemple, pour identifier un formulaire contenant un paramètre de courrier électronique prédéfini sur rick_brough@mydomain.com, un paramètre de mot de passe, mais pas un paramètre de prénom, vous devez spécifier les paramètres suivants, une par ligne :

    email=rick_brough@mydomain.com password not first-name

    Envoi de formulaire

    Remplacer l’URL de l’action

    Indiquez quand la cible de l’envoi du formulaire est différente de ce qui est spécifié dans l’attribut action du formulaire.

    Par exemple, vous pouvez utiliser cette option lorsque le formulaire est envoyé par le biais d’une fonction JavaScript qui construit une valeur d’URL différente de celle du formulaire.

    Méthode Override

    Indiquez quand la cible de l’envoi du formulaire est différente de ce qui est utilisé dans l’attribut action du formulaire et quand le code JavaScript d’envoi a modifié la méthode.

    Les valeurs par défaut de tous les paramètres de formulaire ( <input> balises, y compris les champs masqués), la valeur par défaut <option> d’une <select> balise et le texte par défaut entre <textarea>...</textarea> balises) sont lues à partir de la page Web. Cependant, tout paramètre répertorié dans la section Envoi de formulaire, dans le champ Paramètres , est remplacé par les valeurs par défaut du formulaire.

    Paramètres

    Vous pouvez ajouter un préfixe aux paramètres d’envoi de formulaire avec le not mot-clé.

    Lorsque vous ajoutez un préfixe à un paramètre not , il n’est pas envoyé dans le cadre de l’envoi du formulaire. Ce comportement s’avère utile pour les cases à cocher qui doivent être envoyées et désactivées.

    Supposons, par exemple, que vous souhaitiez envoyer les paramètres suivants :

    • Le paramètre de courrier électronique avec la valeur nobody@mydomain.com
    • Le paramètre password avec la valeur tryme
    • Le paramètre mycheckbox est désélectionné.
    • Tous les autres <form> paramètres en tant que valeurs par défaut

    Le paramètre d’envoi de votre formulaire ressemble à ce qui suit :

    email=nobody@mydomain.com password=tryme not mycheckbox

    L’attribut de méthode de la <form> balise sur la page Web permet de déterminer si les données sont envoyées à votre serveur à l’aide de la méthode GET ou de la méthode POST.

    Si la <form> balise ne contient pas d’attribut de méthode, le formulaire est envoyé à l’aide de la méthode GET.

  4. Cliquez sur Add.

  5. (Facultatif) Utilisez l’une des méthodes suivantes :

Modification d’une définition de formulaire

Vous pouvez modifier une définition de formulaire existante si un formulaire de votre site Web a été modifié ou si vous devez simplement la modifier.

Gardez à l’esprit qu’il n’existe aucune History fonctionnalité sur la Form Submission page permettant de rétablir les modifications apportées à une définition de formulaire.

Veillez à recréer l’index de votre site afin que les résultats de vos modifications soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site Webintermédiaire.

Pour modifier une définition de formulaire

  1. Dans le menu produit, cliquez sur Settings > Crawling > Form Submission.

  2. Sur la Form Submission page, cliquez Edit à droite d’une définition de formulaire à mettre à jour.

  3. Sur la Edit Form Definition page, définissez les Form Recognition options et Form Submission .

    Consultez le tableau des options sous Ajouter des définitions de formulaire pour l’indexation de formulaires sur votre site Web.

  4. Cliquez sur Save Changes.

  5. (Facultatif) Utilisez l’une des méthodes suivantes :

Suppression d’une définition de formulaire

Vous pouvez supprimer une définition de formulaire existante si le formulaire n’existe plus sur votre site Web ou si vous ne souhaitez plus traiter et indexer un formulaire particulier.

Gardez à l’esprit qu’il n’existe aucune History fonctionnalité sur la Form Submission page permettant de rétablir les modifications apportées à une définition de formulaire.

Veillez à recréer l’index de votre site afin que les résultats de vos modifications soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site Webintermédiaire.

Pour supprimer une définition de formulaire

  1. Dans le menu produit, cliquez sur Settings > Crawling > Form Submission.

  2. Sur la Form Submission page, cliquez Delete à droite d’une définition de formulaire à supprimer.

    Veillez à choisir la définition de formulaire appropriée à supprimer. Il n'existe pas de boîte de dialogue de confirmation de la suppression lorsque vous cliquez Delete à l'étape suivante.

  3. Sur la Delete Form Definition page, cliquez sur Delete.

  4. (Facultatif) Utilisez l’une des méthodes suivantes :

A propos du connecteur d’index

Utilisez Index Connector pour définir des sources d’entrée supplémentaires pour indexer des pages XML ou tout type de flux.

Vous pouvez utiliser une source d’entrée de flux de données pour accéder au contenu stocké dans un formulaire différent de ce qui est généralement découvert sur un site Web à l’aide de l’une des méthodes d’analyse disponibles. Chaque document analysé et indexé correspond directement à une page de contenu de votre site Web. Cependant, un flux de données provient soit d’un document XML, soit d’un fichier texte délimité par des virgules ou des tabulations et contient les informations de contenu à indexer.

Une source de données XML se compose de stanzas XML, ou enregistrements, qui contiennent des informations qui correspondent à des documents individuels. Ces documents individuels sont ajoutés à l’index. Un flux de données texte contient des enregistrements individuels délimités par de nouvelles lignes qui correspondent à des documents individuels. Ces documents individuels sont également ajoutés à l'index. Dans les deux cas, une configuration de connecteur d’index décrit comment interpréter le flux. Chaque configuration décrit l’emplacement du fichier et la manière dont les serveurs y accèdent. La configuration décrit également les informations de "mappage". En d’autres termes, comment les éléments de chaque enregistrement sont utilisés pour remplir les champs de métadonnées dans l’index résultant.

Après avoir ajouté une définition de Connecteur d’index à la Staged Index Connector Definitions page, vous pouvez modifier n’importe quel paramètre de configuration, à l’exception des valeurs Nom ou Type.

La Index Connector page affiche les informations suivantes :

  • Nom des connecteurs d'index définis que vous avez configurés et ajoutés.

  • L’un des types de source de données suivants pour chaque connecteur que vous avez ajouté :

    • Texte - Fichiers simples "plats", délimités par des virgules, délimités par des tabulations ou autres formats délimités de manière cohérente.
    • Flux - Flux XML.
    • XML - Collections de documents XML.
  • Indique si le connecteur est activé ou non pour l’analyse et l’indexation suivantes effectuées.

  • Adresse de la source de données.

Voir aussi A propos du connecteur d’index

Fonctionnement du processus d’indexation pour les configurations de texte et de flux dans Index Connector

Étape

Processus

Description

1

Téléchargez la source de données.

Pour les configurations de texte et de flux, il s’agit d’un simple téléchargement de fichier.

2

Ventilez la source de données téléchargée en pseudo-documents individuels.

Pour Texte , chaque nouvelle ligne de texte délimitée par des lignes correspond à un document individuel et est analysée à l’aide du délimiteur spécifié, tel qu’une virgule ou une tabulation.

Pour le flux , les données de chaque document sont extraites à l’aide d’un modèle d’expression standard sous la forme suivante :

<${Itemtag}>(.*?)</${Itemtag}>

A l’aide de Map sur la page d’Ajoute du connecteur d’ index , créez une copie mise en cache des données, puis créez une liste de liens pour le moteur de recherche. Les données sont stockées dans un cache local et renseignées avec les champs configurés.

Les données analysées sont écrites dans le cache local.

Ce cache est lu ultérieurement pour créer les documents HTML simples dont l’analyseur a besoin. Par exemple :

<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>

L’élément <title> n’est généré que lorsqu’il existe un mappage au champ de métadonnées Titre. De même, l’élément <body> n’est généré que lorsqu’il existe un mappage au champ de métadonnées Body.

Important: Il n’existe aucune prise en charge pour l’affectation de valeurs à la balise méta d’URL prédéfinie.

Pour tous les autres mappages, <meta> balises sont générées pour chaque champ contenant des données trouvées dans le document d’origine.

Les champs de chaque document sont ajoutés au cache. Pour chaque document écrit dans le cache, un lien est également généré, comme dans les exemples suivants :

<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....

Le mappage de la configuration doit comporter un champ identifié comme clé Principal. Ce mappage forme la clé utilisée lorsque les données sont extraites du cache.

L’analyseur de liens identifie l’index d’URL : préfixe de schéma, qui peut ensuite accéder aux données mises en cache localement.

3

Analysez le jeu de documents mis en cache.

L' index : les liens sont ajoutés à la liste en attente de l’analyseur et sont traités dans la séquence d’analyse normale.

4

Traiter chaque document.

La valeur de clé de chaque lien correspond à une entrée dans le cache, de sorte que l’analyse de chaque lien entraîne la récupération des données de ce document à partir du cache. Il est ensuite "assemblé" dans une image HTML qui est traitée et ajoutée à l’index.

Fonctionnement du processus d’indexation pour les configurations XML dans Index Connector

Le processus d’indexation pour la configuration XML est similaire au processus pour les configurations Texte et Flux avec les modifications et exceptions mineures suivantes.

Les documents des analyses XML étant déjà séparés en fichiers individuels, les étapes 1 et 2 du tableau ci-dessus ne s’appliquent pas directement. Si vous spécifiez une URL dans les Host Address champs et File Path des champs de la Index Connector Add page, elle est téléchargée et traitée comme un document HTML normal. On s’attend à ce que le document de téléchargement contienne un ensemble de <a href="{url}"... liens, chacun pointant vers un document XML qui est traité. Ces liens sont convertis au format suivant :

<a href="index:<ic_config_name>?url="{url}">

Par exemple, si la configuration de l’Adobe renvoyait les liens suivants :

<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a> 
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>

Dans le tableau ci-dessus, l’étape 3 ne s’applique pas et l’étape 4 est terminée au moment de l’analyse et de l’indexation.

Vous pouvez également mélanger vos documents XML avec d’autres documents qui ont été détectés naturellement par le processus d’analyse. Dans ce cas, vous pouvez utiliser des règles de réécriture ( Settings > Rewrite Rules > Crawl List Retrieve URL Rules) pour modifier les URL des documents XML afin de les diriger vers Index Connector.

Voir A propos des règlesd’URL de récupération de Liste d’analyse.

Par exemple, supposons que vous ayez la règle de réécriture suivante :

RewriteRule (^http.*[.]xml$) index:Adobe?key=$1

Cette règle traduit toute URL se terminant par .xml un lien Connecteur d’index. L’analyseur de liens identifie et réécrit le schéma d’ index: URL. Le processus de téléchargement est redirigé vers le serveur Apache Index Connector sur la Principale. Chaque document téléchargé est examiné en utilisant le même modèle d’expression standard que celui utilisé avec les flux. Dans ce cas, cependant, le document HTML fabriqué n’est pas enregistré dans le cache. Au lieu de cela, elle est transmise directement à l’analyseur pour le traitement de l’index.

Configuration de plusieurs connecteurs d’index

Vous pouvez définir plusieurs configurations Index Connector pour n’importe quel compte. Les configurations sont automatiquement ajoutées à la liste déroulante dans Settings > Crawl > URL Entrypoints , comme indiqué dans l’illustration suivante :

La sélection d’une configuration dans la liste déroulante ajoute la valeur à la fin de la liste des points d’entrée d’URL.

Remarque

Bien que les configurations Index Connector désactivées soient ajoutées à la liste déroulante, vous ne pouvez pas les sélectionner. Si vous sélectionnez la même configuration Index Connector une seconde fois, elle est ajoutée à la fin de la liste et l’instance précédente est supprimée.

Pour spécifier un point d’entrée Connector d’index pour une analyse incrémentielle, vous pouvez ajouter des entrées au format suivant :

index:<indexconnector_configuration_name>

L’analyseur de liens traite chaque entrée ajoutée si elle se trouve sur la page Connecteurs d’index et si elle est activée.

Remarque : Chaque URL de document étant construite à l’aide du nom de configuration d’Index Connector et de la clé Principale du document, veillez à utiliser le même nom de configuration d’Index Connector lors des mises à jour incrémentielles ! Cela permet Adobe Search&Promote de mettre à jour correctement les documents précédemment indexés.

Voir aussi A propos des points de terminaisond’URL.

Utilisation des zones de configuration lorsque vous ajoutez un connecteur d’index

Lorsque vous ajoutez un connecteur d’index, vous pouvez éventuellement utiliser cette fonction Setup Maps pour télécharger un exemple de source de données. Les données sont examinées pour déterminer si l'indexation est appropriée.

Si vous choisissez le type Connecteur d'index...

La fonction de configuration des zones...

Texte

Détermine la valeur du délimiteur en essayant d’abord d’utiliser des onglets, puis des barres verticales ( | ) et enfin des virgules ( , ). Si vous avez déjà spécifié une valeur de délimiteur avant de cliquer sur Configurer les zones cliquables , cette valeur est utilisée à la place.

Le modèle le mieux adapté permet de remplir les champs de zone cliquable avec des suppositions aux valeurs de balise et de champ appropriées. En outre, un échantillon des données analysées s’affiche. Veillez à sélectionner En-têtes dans la première rangée si vous savez que le fichier contient une rangée d’en-tête. La fonction de configuration utilise ces informations pour mieux identifier les entrées de mappage résultantes.

Flux

Télécharge la source de données et effectue une analyse XML simple.

Les identifiants XPath résultants sont affichés dans les lignes Balise de la table de mappage et des valeurs similaires dans Champs. Ces lignes identifient uniquement les données disponibles et ne génèrent pas les définitions XPath les plus compliquées. Cependant, il reste utile car il décrit les données XML et identifie les valeurs Itemtag.

Remarque : La fonction Setup Maps télécharge la source XML entière pour effectuer son analyse. Si le fichier est volumineux, cette opération peut expirer.

En cas de succès, cette fonction identifie tous les éléments XPath possibles, dont la plupart ne sont pas souhaitables. Assurez-vous d'examiner les définitions de mappage résultantes et de supprimer celles dont vous n'avez pas besoin ou que vous ne souhaitez pas.

XML

Télécharge l’URL d’un document individuel représentatif, et non la liste de lien Principale. Ce document unique est analysé à l’aide du même mécanisme que celui utilisé avec les flux et les résultats s’affichent.

Avant de cliquer sur Ajouter pour enregistrer la configuration, veillez à rétablir l’URL en document de liste de liens Principaux.

Important: La fonction de configuration des zones cliquables peut ne pas fonctionner pour les jeux de données XML volumineux, car l’analyseur de fichiers tente de lire l’intégralité du fichier en mémoire. Par conséquent, vous pourriez rencontrer une condition de mémoire insuffisante. Cependant, lorsque le même document est traité au moment de l’indexation, il n’est pas lu dans la mémoire. Au lieu de cela, les documents volumineux sont traités "en déplacement" et ne sont pas lus entièrement en mémoire en premier.

Utilisation de la Prévisualisation lorsque vous ajoutez un connecteur d’index

Lorsque vous ajoutez un connecteur d’index, vous pouvez éventuellement utiliser la fonction Preview pour valider les données, comme si vous les aviez enregistrées. Il exécute un test par rapport à la configuration, mais sans enregistrer la configuration dans le compte. Le test accède à la source de données configurée. Cependant, il écrit le cache de téléchargement à un emplacement temporaire ; il n'entre pas en conflit avec le dossier cache principal utilisé par l'analyseur d'indexation.

La prévisualisation ne traite qu'un documents par défaut de cinq , contrôlé par Acct:IndexConnector-Prévisualisation-Max-Documents. Les documents prévisualisés s’affichent sous forme de source, dans la mesure où ils sont présentés à l’analyseur d’indexation. L'affichage est similaire à une fonction "Source de Vue" dans un navigateur Web. Vous pouvez parcourir les documents du jeu de prévisualisations à l’aide de liens de navigation standard.

La prévisualisation ne prend pas en charge les configurations XML, car ces documents sont traités directement et ne sont pas téléchargés dans le cache.

ajouter une définition du connecteur d'index

Chaque configuration de Connecteur d’index définit une source de données et des mappages pour relier les éléments de données définis pour cette source aux champs de métadonnées de l’index.

Avant que les effets de la nouvelle définition activée ne soient visibles pour les clients, recréez l’index de votre site.

Pour ajouter une définition de connecteur d’index

  1. Dans le menu produit, cliquez sur Settings > Crawling > Index Connector.

  2. Sur la Stage Index Connector Definitions page, cliquez sur Add New Index Connector.

  3. Sur la Index Connector Add page, définissez les options de connecteur de votre choix. Les options disponibles dépendent de celles Type que vous avez sélectionnées.

    Option

    Description

    Nom

    Nom unique de la configuration d’Index Connector. Vous pouvez utiliser des caractères alphanumériques. Les caractères "_" et "-" sont également autorisés.

    Type

    Source de vos données. Le type de source de données que vous sélectionnez affecte les options résultantes disponibles sur la page d’Ajoute du connecteur d’index. Vous pouvez choisir parmi les options suivantes :

    • Texte

      Fichiers de texte simple à plat, délimités par des virgules, délimités par des tabulations ou autres formats délimités de manière cohérente. Chaque nouvelle ligne de texte délimitée par des lignes correspond à un document individuel et est analysée à l’aide du délimiteur spécifié.

      Vous pouvez mapper chaque valeur, ou colonne, à un champ de métadonnées, référencé par le numéro de colonne, en commençant par 1 (un).

    • Flux

      Télécharge un Principal document XML contenant plusieurs "lignes" d’informations.

    • XML

      Télécharge un Principal document XML contenant des liens ( <a> ) vers des documents XML individuels.

    Type de source de données : Texte

    Activé

    Active l’analyse et l’indexation de la configuration. Vous pouvez également désactiver la configuration pour empêcher l’analyse et l’indexation.

    Remarque: Les configurations de Connecteur d’index désactivées sont ignorées si elles se trouvent dans une liste de point d’entrée.

    Adresse de l’hôte

    Indique l’adresse de l’hôte du serveur où se trouvent vos données.

    Si vous le souhaitez, vous pouvez spécifier un chemin d’accès URI complet (Uniform Resource Identifier) au document de source de données, comme dans les exemples suivants :

    https://www.somewhere.com/some_path/some_file.xml

    ou

    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.xml

    L’URI est ventilé en entrées appropriées pour les champs Adresse hôte, Chemin d’accès au fichier, Protocole et, éventuellement, Nom d’utilisateur et Mot de passe.

    Indique l’adresse IP ou l’adresse URL du système hôte où se trouve le fichier de source de données.

    Chemin du fichier

    Indique le chemin d’accès au fichier de texte simple à plat, délimité par des virgules, délimité par des tabulations ou à tout autre fichier de format délimité de manière cohérente.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Chemin de fichier incrémentiel

    Indique le chemin d’accès au fichier de texte simple à plat, délimité par des virgules, délimité par des tabulations ou à tout autre fichier de format délimité de manière cohérente.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Ce fichier, s’il est spécifié, est téléchargé et traité pendant les opérations d’index incrémentiel. Si aucun fichier n’est spécifié, le fichier répertorié sous Chemin d’accès au fichier est utilisé à la place.

    Chemin d’accès au fichier vertical

    Indique le chemin d’accès au fichier de texte simple à plat, délimité par des virgules, délimité par des tabulations ou à tout autre fichier de format délimité de manière cohérente à utiliser lors d’une mise à jour verticale.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Ce fichier, s’il est spécifié, est téléchargé et traité pendant les opérations de mise à jour verticale.

    Remarque: Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonction à utiliser.

    Supprime le chemin d'accès au fichier

    Indique le chemin d’accès au fichier de texte simple à plat, contenant une seule valeur d’identificateur de document par ligne.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Ce fichier, s’il est spécifié, est téléchargé et traité pendant les opérations d’index incrémentiel. Les valeurs trouvées dans ce fichier sont utilisées pour créer des requêtes "delete" afin de supprimer des documents précédemment indexés. Les valeurs de ce fichier doivent correspondre aux valeurs trouvées dans les fichiers Chemin d'accès au fichier complet ou incrémentiel, dans la colonne identifiée comme clé Principal .

    Remarque: Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonction à utiliser.

    Protocole

    Spécifie le protocole utilisé pour accéder au fichier. Vous pouvez choisir parmi les options suivantes :

    • HTTP

      Si nécessaire, vous pouvez entrer les informations d’identification d’authentification appropriées pour accéder au serveur HTTP.

    • HTTPS

      Si nécessaire, vous pouvez entrer les informations d’identification d’authentification appropriées pour accéder au serveur HTTPS.

    • FTP

      Vous devez entrer les informations d’identification d’authentification appropriées pour accéder au serveur FTP.

    • SFTP

      Vous devez entrer les informations d’identification d’authentification appropriées pour accéder au serveur SFTP.

    • Fichier

    Expiration

    Spécifie le délai d’expiration, en secondes, des connexions FTP, SFTP, HTTP ou HTTPS. Cette valeur doit être comprise entre 30 et 300.

    Reprises

    Indique le nombre maximal de Reprises pour les connexions FTP, SFTP, HTTP ou HTTPS ayant échoué. Cette valeur doit être comprise entre 0 et 10.

    La valeur zéro (0) permet d’éviter les tentatives de nouvelle tentative.

    Encodage

    Indique le système de codage de caractères utilisé dans le fichier de source de données spécifié.

    Délimiteur

    Indique le caractère à utiliser pour délimiter chaque champ du fichier de source de données spécifié.

    La virgule ( , ) est un exemple de délimiteur. La virgule agit comme un délimiteur de champ qui permet de séparer les champs de données dans le fichier de source de données spécifié.

    Sélectionner l' onglet ? pour utiliser le caractère de tabulation horizontale comme délimiteur.

    En-têtes de la première ligne

    Indique que la première ligne du fichier de source de données contient uniquement des informations d’en-tête et non des données.

    Nombre minimum de documents pour l’indexation

    Si cette valeur est définie sur une valeur positive, elle indique le nombre minimum d’enregistrements attendus dans le fichier téléchargé. Si moins d'enregistrements sont reçus, l'opération d'index est abandonnée.

    Remarque: Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonction à utiliser.

    Remarque: Cette fonction n'est utilisée que pendant les opérations d'index complètes.

    Carte

    Indique les mappages colonne/métadonnées, à l’aide des numéros de colonne.

    • Colonne

      Spécifie un numéro de colonne, la première colonne étant 1 (un). Pour ajouter de nouvelles lignes de mappage pour chaque colonne, sous Action , cliquez sur + .

      Il n’est pas nécessaire de référencer chaque colonne de la source de données. Vous pouvez à la place choisir d’ignorer les valeurs.

    • Champ

      Définit la valeur d’attribut name utilisée pour chaque balise <meta> générée.

    • Métadonnées?

      Le champ devient une liste déroulante à partir de laquelle vous pouvez sélectionner des champs de métadonnées définis pour le compte actif.

      Si vous le souhaitez, la valeur de champ peut être un champ de métadonnées non défini. Un champ de métadonnées non défini est parfois utile pour créer le contenu utilisé par le script de filtrage .

      Voir A propos du filtrage de script .

      Lorsque Index Connector traite des documents XML avec plusieurs accès sur un champ de mappage, les valeurs multiples sont concaténées en une seule valeur dans le document mis en cache qui en résulte. Par défaut, ces valeurs sont combinées à l’aide d’un délimiteur de virgules. Cependant, supposons que la valeur de champ correspondante soit un champ de métadonnées défini. En outre, l’attribut Listes autorisées est défini pour ce champ. Dans ce cas, la valeur Délimiteurs de Liste du champ, qui est le premier délimiteur défini, est utilisée dans la concaténation.

    • Clé primaire?

      Une seule définition de mappage est identifiée comme la clé Principale. Ce champ devient la référence unique présentée lorsque ce document est ajouté à l'index. Cette valeur est utilisée dans l’URL du document dans l’index.

      Les valeurs de clé de Principal doivent être uniques dans tous les documents représentés par la configuration d’Index Connector. Tous les duplicata rencontrés seront ignorés. Si vos documents source ne contiennent pas une seule valeur unique à utiliser comme clé Principal , mais que deux ou plusieurs champs pris ensemble peuvent former un identifiant unique, vous pouvez définir la clé Principal en combinant plusieurs valeurs de de colonnes avec une barre verticale ("|") délimitant les valeurs.

    • Eliminer le code HTML ?

      Lorsque cette option est cochée, toutes les balises HTML trouvées dans les données de ce champ sont supprimées.

    • Action

      Permet d’ajouter des rangées au mappage ou de supprimer des rangées du mappage. L’ordre des rangées n’est pas important.

    Type de source de données : Flux

    Activé

    Active l’analyse et l’indexation de la configuration. Vous pouvez également désactiver la configuration pour empêcher l’analyse et l’indexation.

    Remarque: Les configurations de Connecteur d’index désactivées sont ignorées si elles se trouvent dans une liste de point d’entrée.

    Adresse de l’hôte

    Indique l’adresse IP ou l’adresse URL du système hôte où se trouve le fichier de source de données.

    Chemin du fichier

    Spécifie le chemin d’accès au document XML Principal qui contient plusieurs "lignes" d’informations.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Chemin de fichier incrémentiel

    Spécifie le chemin d’accès au document XML incrémentiel qui contient plusieurs "lignes" d’informations.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Ce fichier, s’il est spécifié, est téléchargé et traité pendant les opérations d’index incrémentiel. Si aucun fichier n’est spécifié, le fichier répertorié sous Chemin d’accès au fichier est utilisé à la place.

    Chemin d’accès au fichier vertical

    Spécifie le chemin d’accès au document XML qui contient plusieurs "lignes" d’informations éparses à utiliser lors d’une mise à jour verticale.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Ce fichier, s’il est spécifié, est téléchargé et traité pendant les opérations de mise à jour verticale.

    Remarque: Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonction à utiliser.

    Supprime le chemin d'accès au fichier

    Indique le chemin d’accès au fichier de texte simple à plat, contenant une seule valeur d’identificateur de document par ligne.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Ce fichier, s’il est spécifié, est téléchargé et traité pendant les opérations d’index incrémentiel. Les valeurs trouvées dans ce fichier sont utilisées pour créer des requêtes "delete" afin de supprimer des documents précédemment indexés. Les valeurs de ce fichier doivent correspondre aux valeurs trouvées dans les fichiers Chemin d'accès au fichier complet ou incrémentiel, dans la colonne identifiée comme clé Principal .

    Remarque: Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonction à utiliser.

    Protocole

    Spécifie le protocole utilisé pour accéder au fichier. Vous pouvez choisir parmi les options suivantes :

    • HTTP

      Si nécessaire, vous pouvez entrer les informations d’identification d’authentification appropriées pour accéder au serveur HTTP.

    • HTTPS

      Si nécessaire, vous pouvez entrer les informations d’identification d’authentification appropriées pour accéder au serveur HTTPS.

    • FTP

      Vous devez entrer les informations d’identification d’authentification appropriées pour accéder au serveur FTP.

    • SFTP

      Vous devez entrer les informations d’identification d’authentification appropriées pour accéder au serveur SFTP.

    • Fichier

    Itemtag

    Identifie l’élément XML que vous pouvez utiliser pour identifier des lignes XML individuelles dans le fichier de source de données que vous avez spécifié.

    Par exemple, dans le fragment Flux suivant d’un document XML d’Adobe, la valeur Itemtag est un enregistrement :

    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-/Google/DTD GSA Feeds/EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"><metadata> <meta name="mp_mkt" content="1"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=fr"mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_air.png?lang=fr"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=fr"title" content="Adobe AIR Marketplace"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=fr"description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=fr"mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_photoshop.png?lang=fr"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=fr"title" content="Adobe Photoshop Marketplace"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=fr"description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>

    Nombre minimum de documents pour l’indexation

    Si cette valeur est définie sur une valeur positive, elle indique le nombre minimum d’enregistrements attendus dans le fichier téléchargé. Si moins d'enregistrements sont reçus, l'opération d'index est abandonnée.

    Remarque: Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonction à utiliser.

    Remarque: Cette fonction n'est utilisée que pendant les opérations d'index complètes.

    Carte

    Vous permet de spécifier des mappages élément XML/métadonnées, à l’aide d’expressions XPath.

    • Baliser

      Spécifie une représentation XPath des données XML analysées. A l’aide de l’exemple de document XML d’Adobe ci-dessus, sous l’option Itemtag, il peut être mappé à l’aide de la syntaxe suivante :

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      La syntaxe ci-dessus se traduit comme suit :

      • /record/@displayurl&nbsp;->&nbsp;page-url

        L’attribut display url de l’ élément d’enregistrement est mappé au champ de métadonnées page-url .

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        L’ attribut de contenu de tout élément de métadonnées contenu dans un élément de métadonnées, contenu dans un élément de d’enregistrement, dont l’attribut de nom est titre , est associé au de titre du champ de métadonnées.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        L’ attribut de contenu de tout élément de métadonnées contenu dans un élément de métadonnées, contenu dans l’élément de d’enregistrement , dont l’attribut de nom est description , correspond au desc du champ de métadonnées.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        L’ attribut de contenu de tout élément de métadonnées contenu dans un élément de métadonnées, contenu dans l’élément de d’enregistrement , dont l’attribut de nom est description , correspond au corps du du champ de métadonnées.

      XPath est une notation relativement compliquée. Pour plus d'informations, consultez l'adresse suivante :

      Voir https://www.w3schools.com/xpath/

    • Champ

      Définit la valeur d’attribut name utilisée pour chaque balise <meta> générée.

    • Métadonnées?

      Le champ devient une liste déroulante à partir de laquelle vous pouvez sélectionner des champs de métadonnées définis pour le compte actif.

      Si vous le souhaitez, la valeur de champ peut être un champ de métadonnées non défini. Un champ de métadonnées non défini est parfois utile pour créer le contenu utilisé par le script de filtrage .

      Voir A propos du filtrage de script .

      Lorsque Index Connector traite des documents XML avec plusieurs accès sur un champ de mappage, les valeurs multiples sont concaténées en une seule valeur dans le document mis en cache qui en résulte. Par défaut, ces valeurs sont combinées à l’aide d’un délimiteur de virgules. Cependant, supposons que la valeur de champ correspondante soit un champ de métadonnées défini. En outre, l’attribut Listes autorisées est défini pour ce champ. Dans ce cas, la valeur Délimiteurs de Liste du champ, qui est le premier délimiteur défini, est utilisée dans la concaténation.

    • Clé primaire?

      Une seule définition de mappage est identifiée comme la clé Principale. Ce champ devient la référence unique présentée lorsque ce document est ajouté à l'index. Cette valeur est utilisée dans l’URL du document dans l’index.

      Les valeurs de clé de Principal doivent être uniques dans tous les documents représentés par la configuration d’Index Connector. Tous les duplicata rencontrés seront ignorés. Si vos documents source ne contiennent pas une seule valeur unique à utiliser comme clé Principal , mais que deux ou plusieurs champs pris ensemble peuvent former un identifiant unique, vous pouvez définir la clé Principal en combinant plusieurs définitions de de balises avec une barre verticale ("|") délimitant les valeurs.

    • Eliminer le code HTML ?

      Lorsque cette option est cochée, toutes les balises HTML trouvées dans les données de ce champ sont supprimées.

    • Utiliser pour la suppression ?

      Utilisé uniquement pendant les opérations d’index incrémentiel. Les enregistrements correspondant à ce modèle XPath identifient les éléments à supprimer. La valeur de la clé de Principal pour chaque enregistrement de ce type est utilisée pour construire des requêtes de suppression, comme dans le cas de la suppression du chemin de fichier.

      Remarque: Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonction à utiliser.

    • Action

      Permet d’ajouter des rangées au mappage ou de supprimer des rangées du mappage. L’ordre des rangées n’est pas important.

    Type de source de données : XML

    Activé

    Active l’analyse et l’indexation de la configuration. Vous pouvez également désactiver la configuration pour empêcher l’analyse et l’indexation.

    Remarque: Les configurations de Connecteur d’index désactivées sont ignorées si elles se trouvent dans une liste de point d’entrée.

    Adresse de l’hôte

    Indique l’adresse URL du système hôte où se trouve le fichier de source de données.

    Chemin du fichier

    Indique le chemin d’accès au document XML Principal qui contient des liens ( <a> ) vers des documents XML individuels.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Protocole

    Spécifie le protocole utilisé pour accéder au fichier. Vous pouvez choisir parmi les options suivantes :

    • HTTP

      Si nécessaire, vous pouvez entrer les informations d’identification d’authentification appropriées pour accéder au serveur HTTP.

    • HTTPS

      Si nécessaire, vous pouvez entrer les informations d’identification d’authentification appropriées pour accéder au serveur HTTPS.

    • FTP

      Vous devez entrer les informations d’identification d’authentification appropriées pour accéder au serveur FTP.

    • SFTP

      Vous devez entrer les informations d’identification d’authentification appropriées pour accéder au serveur SFTP.

    • Fichier

    Remarque: Le paramètre Protocole n’est utilisé que lorsque des informations sont spécifiées dans les champs Adresse de l’hôte et/ou Chemin d’accès au fichier. Les documents XML individuels sont téléchargés à l’aide de HTTP ou HTTPS, conformément à leurs spécifications d’URL.

    Itemtag

    Identifie l’élément XML qui définit une "ligne" dans le fichier de source de données que vous avez spécifié.

    Carte

    Permet de spécifier des mappages colonne/métadonnées à l’aide des numéros de colonne.

    • Baliser

      Spécifie une représentation XPath des données XML analysées. A l’aide de l’exemple de document XML d’Adobe ci-dessus, sous l’option Itemtag, vous pouvez le mapper à l’aide de la syntaxe suivante :

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      La syntaxe ci-dessus se traduit comme suit :

      • /record/@displayurl&nbsp;->&nbsp;page-url

        L’attribut display url de l’ élément d’enregistrement est mappé au champ de métadonnées page-url .

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        L’ attribut de contenu de tout élément de métadonnées contenu dans un élément de métadonnées, contenu dans un élément de d’enregistrement, dont l’attribut de nom est titre , est associé au de titre du champ de métadonnées.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        L’ attribut de contenu de tout élément de métadonnées contenu dans un élément de métadonnées, contenu dans l’élément de d’enregistrement , dont l’attribut de nom est description , correspond au desc du champ de métadonnées.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        L’ attribut de contenu de tout élément de métadonnées contenu dans un élément de métadonnées, contenu dans l’élément de d’enregistrement , dont l’attribut de nom est description , correspond au corps du du champ de métadonnées.

      XPath est une notation relativement compliquée. Pour plus d'informations, consultez l'adresse suivante :

      Voir https://www.w3schools.com/xpath/

    • Champ

      Définit la valeur d’attribut name utilisée pour chaque balise <meta> générée.

    • Métadonnées?

      Le champ devient une liste déroulante à partir de laquelle vous pouvez sélectionner des champs de métadonnées définis pour le compte actif.

      Si vous le souhaitez, la valeur de champ peut être un champ de métadonnées non défini. Un champ de métadonnées non défini est parfois utile pour créer le contenu utilisé par le script de filtrage .

      Voir A propos du filtrage de script .

      Lorsque Index Connector traite des documents XML avec plusieurs accès sur un champ de mappage, les valeurs multiples sont concaténées en une seule valeur dans le document mis en cache qui en résulte. Par défaut, ces valeurs sont combinées à l’aide d’un délimiteur de virgules. Cependant, supposons que la valeur de champ correspondante soit un champ de métadonnées défini. En outre, l’attribut Listes autorisées est défini pour ce champ. Dans ce cas, la valeur Délimiteurs de Liste du champ, qui est le premier délimiteur défini, est utilisée dans la concaténation.

    • Clé primaire?

      Une seule définition de mappage est identifiée comme la clé Principale. Ce champ devient la référence unique présentée lorsque ce document est ajouté à l'index. Cette valeur est utilisée dans l’URL du document dans l’index.

      Les valeurs de clé de Principal doivent être uniques dans tous les documents représentés par la configuration d’Index Connector. Tous les duplicata rencontrés seront ignorés. Si vos documents source ne contiennent pas une seule valeur unique à utiliser comme clé Principal , mais que deux ou plusieurs champs pris ensemble peuvent former un identifiant unique, vous pouvez définir la clé Principal en combinant plusieurs définitions de de balises avec une barre verticale ("|") délimitant les valeurs.

    • Eliminer le code HTML ?

      Lorsque cette option est cochée, toutes les balises HTML trouvées dans les données de ce champ sont supprimées.

    • Action

      Permet d’ajouter des rangées au mappage ou de supprimer des rangées du mappage. L’ordre des rangées n’est pas important.

  4. (Facultatif) Cliquez sur Setup Maps pour télécharger un exemple de votre source de données. Les données sont examinées pour déterminer si l'indexation est appropriée. Cette fonctionnalité est disponible uniquement pour le texte et les types de flux.

  5. (Facultatif) Cliquez sur Preview pour tester le fonctionnement réel de la configuration. Cette fonctionnalité est disponible uniquement pour le texte et les types de flux.

  6. Cliquez sur Add pour ajouter la configuration à la Index Connector Definitions page et à la liste Index Connector Configurations déroulante de la URL Entrypoints page.

    Voir A propos des points de saisied’URL.

  7. Sur la Index Connector Definitions page, cliquez sur rebuild your staged site index.

  8. (Facultatif) Sur la Index Connector Definitions page, effectuez l’une des opérations suivantes :

Modification d’une définition de connecteur d’index

Vous pouvez modifier un connecteur d’index existant que vous avez défini.

Remarque

Toutes les options que vous pouvez modifier, telles que le nom du connecteur d’index ou le type dans la liste Type déroulante, ne sont pas disponibles.

Pour modifier une définition du connecteur d’index

  1. Dans le menu produit, cliquez sur Settings > Crawling > Index Connector.

  2. Sur la Index Connector page, sous l’en-tête de Actions colonne, cliquez sur Edit le nom de définition d’Index Connector dont vous souhaitez modifier les paramètres.

  3. Sur la Index Connector Edit page, définissez les options de votre choix.

    Consultez le tableau des options sous Ajouter une définitiondu connecteur d’index.

  4. Cliquez sur Save Changes.

  5. (Facultatif) Sur la Index Connector Definitions page, cliquez sur rebuild your staged site index.

  6. (Facultatif) Sur la Index Connector Definitions page, effectuez l’une des opérations suivantes :

Affichage des paramètres d’une définition de connecteur d’index

Vous pouvez vérifier les paramètres de configuration d'une définition de connecteur d'index existante.

Une fois qu’une définition de Connecteur d’index a été ajoutée à la Index Connector Definitions page, vous ne pouvez plus modifier son paramètre Type. Vous devez à la place supprimer la définition, puis en ajouter une nouvelle.

Pour vue des paramètres d’une définition de connecteur d’index

  1. Dans le menu produit, cliquez sur Settings > Crawling > Index Connector.
  2. Sur la Index Connector page, sous l’en-tête de Actions colonne, cliquez sur Edit le nom de définition d’Index Connector dont vous souhaitez vérifier ou modifier les paramètres.

Copie d'une définition de connecteur d'index

Vous pouvez copier une définition de Connecteur d’index existante pour l’utiliser comme base d’un nouveau Connecteur d’index que vous souhaitez créer.

Lors de la copie d’une définition du connecteur d’index, la définition copiée est désactivée par défaut. Pour activer ou "activer" la définition, vous devez la modifier à partir de la Index Connector Edit page, puis sélectionner Enable.

Voir Modification d’une définitionde connecteur d’index.

Copie d’une définition du connecteur d’index

  1. Dans le menu produit, cliquez sur Settings > Crawling > Index Connector.

  2. Sur la Index Connector page, sous l’en-tête de Actions colonne, cliquez sur Copy le nom de définition d’un connecteur d’index dont vous voulez duplicata les paramètres.

  3. Sur la Index Connector Copy page, entrez le nouveau nom de la définition.

  4. Cliquez sur Copy.

  5. (Facultatif) Sur la Index Connector Definitions page, effectuez l’une des opérations suivantes :

Changement du nom d’une définition de connecteur d’index

Vous pouvez modifier le nom d’une définition de connecteur d’index existante.

Après avoir renommé la définition, sélectionnez Settings > Crawling > URL Entrypoints. Vous souhaitez vous assurer que le nom de la nouvelle définition est reflété dans la liste déroulante de la URL Entrypoints page.

Voir Ajouter plusieurs points d’entrée d’URL que vous souhaitez indexer.

Pour renommer une définition de connecteur d’index

  1. Dans le menu produit, cliquez sur Settings > Crawling > Index Connector.

  2. Sur la Index Connector page, sous l’en-tête de Actions colonne, cliquez Rename pour le nom de définition du connecteur d’index que vous souhaitez modifier.

  3. Sur la Index Connector Rename page, entrez le nouveau nom de la définition dans le Name champ.

  4. Cliquez sur Rename.

  5. Cliquez sur Settings > Crawling > URL Entrypoints. Si le nom du connecteur d’index précédent figure dans la liste, supprimez-le et ajoutez l’entrée nouvellement renommée.

    Voir Ajouter plusieurs points d’entrée d’URL que vous souhaitez indexer. 1. (Facultatif) Sur la Index Connector Definitions page, effectuez l’une des opérations suivantes :

Suppression d’une définition de connecteur d’index

Vous pouvez supprimer une définition de Connecteur d’index existante dont vous n’avez plus besoin ou que vous n’utilisez plus.

Pour supprimer une définition du connecteur d’index

  1. Dans le menu produit, cliquez sur Settings > Crawling > Index Connector.
  2. Sur la Index Connector Definitions page, sous l’en-tête de Actions colonne, cliquez sur Delete le nom de définition du connecteur d’index à supprimer.
  3. Sur la Index Connector Delete page, cliquez sur Delete.

Sur cette page