À propos du menu Analyse

Utilisez le menu Analyse pour définir des masques de date et d’URL, des mots de passe, des types de contenu, des connexions, des définitions de formulaire et des points d’entrée d’URL.

À propos des points de fin d’URL

La plupart des sites web ont un point d’entrée ou une page d’accueil Principal qu’un client visite initialement. Ce point d’entrée principal est l’adresse URL à partir de laquelle le robot de recherche commence l’analyse de l’index. Cependant, si votre site web comporte plusieurs domaines ou sous-domaines, ou si des parties de votre site ne sont pas liées à partir du point d’entrée Principal, vous pouvez utiliser des points de fin d’URL pour ajouter d’autres points d’entrée.

Toutes les pages de site web situées sous chaque point d’entrée d’URL spécifié sont indexées. Vous pouvez combiner des points d’entrée d’URL avec des masques pour contrôler exactement les parties d’un site web que vous souhaitez indexer. Vous devez recréer l’index de votre site web avant que les effets des paramètres de points d’entrée d’URL ne soient visibles par les clients.

Le point d’entrée principal est généralement l’URL du site web que vous souhaitez indexer et rechercher. Vous configurez ce point d’entrée principal dans Paramètres du compte.

Voir Configuration des paramètres de votre compte.

Après avoir spécifié le point d’entrée de l’URL principale, vous pouvez éventuellement spécifier des points d’entrée supplémentaires que vous souhaitez analyser dans l’ordre. La plupart du temps, vous spécifiez des points d’entrée supplémentaires pour les pages web qui ne sont pas liées à partir des pages sous le point d’entrée principal. Spécifiez des points d’entrée supplémentaires lorsque votre site web s’étend sur plusieurs domaines, comme dans l’exemple suivant :

https://www.domain.com/

https://www.domain.com/not_linked/but_search_me_too/

https://more.domain.com/

Vous qualifiez chaque point d’entrée avec un ou plusieurs des mots-clés séparés par des espaces dans le tableau ci-dessous. Ces mots-clés affectent la manière dont la page est indexée.

Important : Veillez à séparer un mot-clé donné du point d’entrée et l’un de l’autre par un espace ; une virgule n’est pas un séparateur valide.

Mot-clé

Description

noindex

Si vous ne souhaitez pas indexer le texte sur la page du point d’entrée, mais que vous souhaitez suivre les liens de la page, ajoutez noindex après le point d’entrée.

Séparez le mot-clé du point d’entrée par un espace, comme dans l’exemple suivant :

https://www.my-additional-domain.com/more_pages/main.html noindex

Ce mot-clé équivaut à une balise meta de robots avec content="noindex" ) entre les <head> ... Balises </head> de la page du point d’entrée.

noFollow

Si vous souhaitez indexer le texte dans la page du point d’entrée mais que vous ne souhaitez pas suivre les liens de la page, ajoutez nofollow après le point d’entrée.

Séparez le mot-clé du point d’entrée par un espace, comme dans l’exemple suivant :

https://www.domain.com/not_linked/directory_listing nofollow

Ce mot-clé équivaut à une balise meta de robots avec content="nofollow" entre les <head> ... Balise </head> d’une page de point d’entrée.

formulaire

Lorsque le point d’entrée est une page de connexion, form est généralement utilisé afin que le robot de recherche puisse envoyer le formulaire de connexion et recevoir les cookies appropriés avant d’analyser le site web. Lorsque le mot-clé "formulaire" est utilisé, la page du point d’entrée n’est pas indexée et le robot de recherche ne marque pas la page du point d’entrée comme étant analysée. Utilisation nofollow si vous ne souhaitez pas que le robot de recherche suive les liens de la page.

Voir aussi À propos des types de contenu.

Voir aussi À propos du connecteur d’index.

Ajout de plusieurs points d’entrée d’URL que vous souhaitez indexer

Si votre site web comporte plusieurs domaines ou sous-domaines et que vous souhaitez les analyser, vous pouvez utiliser des points de saisie d’URL pour ajouter d’autres URL.

Pour définir le point d’entrée de l’URL principale de votre site web, utilisez Paramètres du compte.

Voir Configuration des paramètres de votre compte.

Pour ajouter plusieurs points d’entrée d’URL que vous souhaitez indexer

  1. Dans le menu du produit, cliquez sur Settings > Crawling > URL Entrypoints.

  2. Sur la page URL Entrypoints, dans le champ Entrypoints, saisissez une adresse URL par ligne.

  3. (Facultatif) Dans la liste déroulante Add Index Connector Configurations, sélectionnez un connecteur d’index à ajouter en tant que point d’entrée pour l’indexation.

    La liste déroulante n’est disponible que si vous avez déjà ajouté une ou plusieurs définitions de connecteur d’index.

    Voir Ajout d’une définition de connecteur d’index.

  4. Cliquez sur Save Changes.

  5. (Facultatif) Effectuez l’une des opérations suivantes :

A propos des modèles d’URL

Les masques d’URL sont des modèles qui déterminent quels documents de votre site web sont indexés ou non par le robot de recherche.

Veillez à reconstruire l’index de votre site afin que les résultats de vos masques d’URL soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site web intermédiaire.

Vous trouverez ci-dessous deux types de masques d’URL que vous pouvez utiliser :

  • Inclure des masques d’URL
  • Exclure les masques d’URL

Inclure des masques d’URL indique au robot de recherche d’indexer tout document correspondant au modèle du masque.

Exclure les masques d’URL indique au robot de recherche d’indexer les documents correspondants.

Alors que le robot de recherche voyage d’un lien à l’autre à travers votre site web, il rencontre des URL et recherche des masques correspondant à ces URL. La première correspondance détermine s’il faut inclure ou exclure cette URL de l’index. Si aucun masque ne correspond à une URL rencontrée, cette URL est ignorée de l’index.

Des masques d’URL d’inclusion pour vos URL de point d’entrée sont automatiquement générés. Ce comportement garantit que tous les documents rencontrés sur votre site web sont indexés. Il supprime aussi facilement les liens qui "quittent" votre site web. Par exemple, si une page indexée renvoie vers https://www.yahoo.com, le robot de recherche n’indexe pas cette URL, car elle ne correspond pas au masque d’inclusion généré automatiquement par l’URL du point d’entrée.

Chaque masque d’URL que vous spécifiez doit se trouver sur une ligne distincte.

Le masque peut spécifier l’une des options suivantes :

  • Chemin complet comme dans https://www.mydomain.com/products.html.

  • Chemin partiel comme dans https://www.mydomain.com/products.

  • URL qui utilise des caractères génériques comme dans https://www.mydomain.com/*.html.

  • Expression régulière (pour les utilisateurs avancés).

    Pour faire d'un masque une expression régulière, insérez le mot-clé regexp entre le type de masque ( exclude ou include) et le masque d'URL.

Voici un exemple simple de masque d’URL d’exclusion :

exclude https://www.mydomain.com/photos

Comme cet exemple est un masque d’URL d’exclusion, tout document correspondant au modèle n’est pas indexé. Le modèle correspond à tous les éléments rencontrés, fichiers et dossiers, de sorte que https://www.mydomain.com/photos.html et https://www.mydomain.com/photos/index.html, qui correspondent tous deux à l’URL d’exclusion, ne soient pas indexés. Pour ne faire correspondre que les fichiers du dossier /photos/, le masque d'URL doit contenir une barre oblique comme dans l'exemple suivant :

exclude https://www.mydomain.com/photos/

L’exemple de masque d’exclusion suivant utilise un caractère générique. Il indique au robot de recherche d’ignorer les fichiers avec l’extension ".pdf". Le robot de recherche n’ajoute pas ces fichiers à votre index.

exclude *.pdf

Un simple masque d’URL d’inclusion est le suivant :

include https://www.mydomain.com/news/

Seuls les documents liés par une série de liens à partir d’un point d’entrée d’URL ou utilisés comme point d’entrée d’URL sont indexés. La simple inscription de l’URL d’un document en tant que masque d’URL d’inclusion n’indexe pas un document non lié. Pour ajouter des documents non liés à votre index, vous pouvez utiliser la fonction Points d’entrée d’URL .

Voir À propos des points d’entrée d’URL.

Les masques d’inclusion et d’exclusion peuvent fonctionner ensemble. Vous pouvez exclure une grande partie de votre site web de l’indexation en créant un masque d’URL d’exclusion tout en incluant une ou plusieurs des pages exclues avec un masque d’URL d’inclusion. Supposons, par exemple, que votre URL de point d’entrée soit la suivante :

https://www.mydomain.com/photos/

Le robot de recherche analyse et indexe toutes les pages sous /photos/summer/, /photos/spring/ et /photos/fall/ (en supposant qu’il existe des liens vers au moins une page dans chaque répertoire à partir du dossier photos). Ce comportement se produit car les chemins de lien permettent au robot de recherche de trouver les documents dans les dossiers /summer/, /spring/ et /fall/, ainsi que les URL de dossier correspondant au masque d’inclusion automatiquement généré par l’URL du point d’entrée.

Vous pouvez choisir d'exclure toutes les pages du dossier /fall/ avec un masque d'URL d'exclusion, comme dans l'exemple suivant :

exclude https://www.mydomain.com/photos/fall/

Vous pouvez également inclure uniquement /photos/fall/redleaves4.html dans l’index avec le masque d’URL suivant :

include https://www.mydomain.com/photos/fall/redleaves4.html

Pour que les deux exemples de masque ci-dessus fonctionnent comme prévu, le masque d'inclusion est répertorié en premier, comme dans l'exemple suivant :

include https://www.mydomain.com/photos/fall/redleaves4.html 
exclude https://www.mydomain.com/photos/fall/

Étant donné que le robot de recherche suit les instructions dans l’ordre dans lequel elles sont répertoriées, le robot de recherche commence par inclure /photos/fall/redleaves4.html, puis exclut le reste des fichiers du dossier /fall.

Si les instructions sont spécifiées de la manière inverse, comme dans l’exemple suivant :

exclude https://www.mydomain.com/photos/fall/ 
include https://www.mydomain.com/photos/fall/redleaves4.html

/photos/fall/redleaves4.html n’est pas inclus, même si le masque indique qu’il est inclus.

Un masque d’URL qui apparaît en premier est toujours prioritaire par rapport à un masque d’URL qui apparaît ultérieurement dans les paramètres du masque. De plus, si le robot de recherche rencontre une page correspondant à un masque d’URL d’inclusion et un masque d’URL d’exclusion, le masque qui est répertorié en premier est toujours prioritaire.

Voir Configuration d’un index incrémentiel d’un site web intermédiaire.

À propos de l’utilisation de mots-clés avec des masques d’URL

Vous pouvez qualifier chaque masque d’inclusion avec un ou plusieurs mots-clés séparés par des espaces, ce qui affecte la manière dont les pages correspondantes sont indexées.

Une virgule n’est pas valide comme séparateur entre le masque et le mot-clé ; vous ne pouvez utiliser que des espaces.

Mot-clé

Description

noindex

Si vous ne souhaitez pas indexer le texte sur les pages qui correspondent au masque d’URL, mais que vous souhaitez suivre les liens de pages correspondants, ajoutez noindex après le masque d’URL d’inclusion. Veillez à séparer le mot-clé du masque avec un espace, comme dans l'exemple suivant :

include *.swf noindex

L’exemple ci-dessus indique que le robot de recherche suit tous les liens des fichiers avec la variable Extension .swf , mais désactive l’indexation de tout le texte contenu dans ces fichiers.

Le Le mot-clé noindex équivaut à une balise méta-robot avec content="noindex" entre la variable <head>...</head> balises des pages correspondantes.

noFollow

Si vous souhaitez indexer le texte sur les pages qui correspondent au masque d’URL, mais que vous ne souhaitez pas suivre les liens de la page correspondante, ajoutez nofollow après le masque d’URL d’inclusion. Veillez à séparer le mot-clé du masque avec un espace, comme dans l'exemple suivant :

include https://www.mydomain.com/photos nofollow

Le Le mot-clé nofollow équivaut à une balise méta-robot avec content="nofollow" entre la variable <head>...</head> balises des pages correspondantes.

regexp

Utilisé pour inclure et exclure des masques.

Tout masque d’URL précédé de regexp est traité comme une expression régulière. Si le robot de recherche rencontre des documents qui correspondent à un masque URL d’expression régulière d’exclusion, ces documents ne sont pas indexés. Si le robot de recherche rencontre des documents qui correspondent à un masque URL d’expression régulière inclus, ces documents sont indexés. Supposons, par exemple, que vous ayez le masque d’URL suivant :

exclude regexp ^.*/products/.*\.html$

Le robot de recherche exclut les fichiers correspondants, tels que https://www.mydomain.com/products/page1.html

Si vous aviez le masque d’URL d’expression régulière d’exclusion suivant :

exclude regexp ^.*\?..*$

Le robot de recherche ne doit pas inclure d’URL contenant un paramètre CGI tel que https://www.mydomain.com/cgi/prog/?arg1=val1&arg2=val2 .

Si vous aviez le masque d’URL d’expression régulière suivant :

include regexp ^.*\.swf$ noindex

Le robot de recherche suit tous les liens des fichiers avec l’extension ".swf". Le Le mot-clé noindex indique également que le texte des fichiers correspondants n’est pas indexé.

Voir Expressions régulières .

Ajout de masques d’URL pour indexer ou non les parties de votre site web

Vous pouvez utiliser URL Masks pour définir les parties de votre site web que vous souhaitez ou ne souhaitez pas analyser et indexer.

Utilisez le champ Tester les masques d’URL pour tester si un document est inclus ou non après l’indexation.

Veillez à reconstruire l’index de votre site afin que les résultats de vos masques d’URL soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site web intermédiaire.

Ajout de masques d’URL pour indexer ou non des parties de votre site web

  1. Dans le menu du produit, cliquez sur Settings > Crawling > URL Masks.

  2. (Facultatif) Sur la page URL Masks, dans le champ Test URL Masks, saisissez un masque d’URL de test sur votre site web, puis cliquez sur Test.

  3. Dans le champ URL Masks , saisissez include (pour ajouter un site web à analyser et indexer) ou exclude (pour empêcher l’analyse et l’indexation d’un site web), suivi de l’adresse du masque d’URL.

    Saisissez une adresse de masque URL par ligne. Exemple :

    include https://www.mycompany.com/summer 
    include https://www.mycompany.com/spring 
    exclude regexp .*\.xml 
    exclude https://www.mycompany.com/fall
    
  4. Cliquez sur Save Changes.

  5. (Facultatif) Effectuez l’une des opérations suivantes :

À propos des masques de date

Vous pouvez utiliser des masques de date pour inclure ou exclure des fichiers de vos résultats de recherche en fonction de l’âge du fichier.

Veillez à reconstruire l’index de votre site afin que les résultats de vos masques d’URL soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site web intermédiaire.

Vous trouverez ci-dessous deux types de masques de date que vous pouvez utiliser :

  • Inclure les masques de date ("include-days" et "include-date")

    Incluez les fichiers d’index de masques de date datant le ou avant la date spécifiée.

  • Exclure les masques de date ("exclude-days" et "exclude-date")

    Exclure les fichiers d’index de masques de date datant le ou avant la date spécifiée.

Par défaut, la date du fichier est déterminée à partir des informations de la balise META. Si aucune balise Meta n’est trouvée, la date d’un fichier est déterminée à partir de l’en-tête HTTP reçu du serveur lorsque le robot de recherche télécharge un fichier.

Chaque masque de date que vous indiquez doit se trouver sur une ligne distincte.

Le masque peut spécifier l’une des options suivantes :

  • Un chemin complet comme dans https://www.mydomain.com/products.html
  • Un chemin partiel comme dans https://www.mydomain.com/products
  • Une URL qui utilise des caractères génériques https://www.mydomain.com/*.html
  • Une expression régulière. Pour faire d'un masque une expression régulière, insérez le mot-clé regexp devant l'URL.

Les masques de date d’inclusion et d’exclusion peuvent tous deux spécifier une date de l’une des deux manières suivantes. Les masques ne sont appliqués que si les fichiers correspondants ont été créés à la date spécifiée ou avant :

  1. Nombre de jours. Supposons, par exemple, que votre masque de date soit le suivant :

    exclude-days 30 https://www.mydomain.com/docs/archive/)
    

    Le nombre de jours spécifiés est recompté. Si le fichier est daté le ou avant la date d’arrivée, le masque est appliqué.

  2. Date réelle au format AAAA-MM-JJ. Supposons, par exemple, que votre masque de date soit le suivant :

    include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
    

    Si le document correspondant est daté le ou avant la date spécifiée, le masque de date est appliqué.

Voici un exemple simple de masque de date d'exclusion :

exclude-days 90 https://www.mydomain.com/docs/archive

Puisqu’il s’agit d’un masque de date d’exclusion, tout fichier correspondant au modèle n’est pas indexé et a 90 jours ou plus. Lorsque vous excluez un document, aucun texte n’est indexé et aucun lien n’est suivi à partir de ce fichier. Le fichier est en fait ignoré. Dans cet exemple, les fichiers et les dossiers peuvent correspondre au modèle d’URL spécifié. Notez que https://www.mydomain.com/docs/archive.html et https://www.mydomain.com/docs/archive/index.html correspondent tous deux au modèle et ne sont pas indexés s’ils ont 90 jours ou plus. Pour ne faire correspondre que les fichiers du dossier /docs/archive/, le masque de date doit contenir une barre oblique comme dans l'exemple suivant :

exclude-days 90 https://www.mydomain.com/docs/archive/

Les masques de date peuvent également être utilisés avec des caractères génériques. Le masque d’exclusion suivant indique au robot de recherche d’ignorer les fichiers avec l’extension ".pdf" dont la date est antérieure ou antérieure au 2011-02-15. Le robot de recherche n’ajoute aucun fichier correspondant à votre index.

exclude-date 2011-02-15 *.pdf

Le masque de date d’inclusion ressemble à cela. Seuls les fichiers correspondants sont ajoutés à l’index. L’exemple suivant indique au robot de recherche d’indexer le texte à partir de n’importe quel fichier de zéro jour ou plus dans la zone /docs/archive/manual/ du site web.

include-days 0 https://www.mydomain.com/docs/archive/manual/

Les masques d’inclusion et d’exclusion peuvent fonctionner ensemble. Par exemple, vous pouvez exclure une grande partie de votre site web de l’indexation en créant un masque de date d’exclusion tout en incluant une ou plusieurs des pages exclues avec un masque d’URL d’inclusion. Si l’URL de votre point d’entrée est la suivante :

https://www.mydomain.com/archive/

Le robot de recherche analyse et indexe toutes les pages sous /archive/summer/, /archive/spring/ et /archive/fall/ (en supposant qu’il existe des liens vers au moins une page dans chaque dossier à partir du dossier archive). Ce comportement se produit car les chemins d’accès aux liens permettent au robot de recherche de "trouver" les fichiers dans les dossiers /summer/, /spring/ et /fall/ et les URL de dossier correspondent au masque d’inclusion automatiquement généré par l’URL du point d’entrée.

Voir À propos des points d’entrée d’URL.

Voir Configuration des paramètres de votre compte.

Vous pouvez choisir d'exclure toutes les pages de plus de 90 jours dans le dossier /fall/ avec un masque de date d'exclusion, comme dans l'exemple suivant :

exclude-days 90 https://www.mydomain.com/archive/fall/

Vous pouvez inclure de manière sélective uniquement /archive/fall/index.html (quel que soit l’âge, tous les fichiers de 0 jour ou plus sont associés) dans l’index avec le masque de date suivant :

include-days 0 https://www.mydomain.com/archive/fall/index.html

Pour que les deux exemples de masque ci-dessus fonctionnent comme prévu, vous devez d'abord répertorier le masque d'inclusion comme dans l'exemple suivant :

include-days 0 https://www.mydomain.com/archive/fall/index.html 
exclude-days 90 https://www.mydomain.com/archive/fall/

Étant donné que le robot de recherche suit les instructions dans l’ordre spécifié, le robot de recherche commence par inclure /archive/fall/index.html, puis exclut le reste des fichiers du dossier /fall.

Si les instructions sont spécifiées de la manière inverse, comme dans l’exemple suivant :

exclude-days 90 https://www.mydomain.com/archive/fall/ 
include-days 0 https://www.mydomain.com/archive/fall/index.html 

/archive/fall/index.html n’est pas inclus, même si le masque indique qu’il doit l’être. Un masque de date qui s’affiche en premier est toujours prioritaire par rapport à un masque de date qui peut apparaître plus tard dans les paramètres du masque. De plus, si le robot de recherche rencontre une page qui correspond à la fois à un masque de date d’inclusion et à un masque de date d’exclusion, le masque qui est répertorié en premier est toujours prioritaire.

Voir Configuration d’un index incrémentiel d’un site web intermédiaire.

À propos de l’utilisation de mots-clés avec des masques de date

Vous pouvez qualifier chaque masque d’inclusion avec un ou plusieurs mots-clés séparés par des espaces, ce qui affecte la manière dont les pages correspondantes sont indexées.

Une virgule n’est pas valide comme séparateur entre le masque et le mot-clé ; vous ne pouvez utiliser que des espaces.

Mot-clé

Description

noindex

Si vous ne souhaitez pas indexer le texte sur les pages datées le ou avant la date spécifiée par le masque d’inclusion, ajoutez noindex après le masque de date d’inclusion comme dans l’exemple suivant :

include-days 10 *.swf noindex

Veillez à séparer le mot-clé du masque par un espace.

L’exemple ci-dessus indique que le robot de recherche suit tous les liens des fichiers avec l’extension ".swf" qui ont 10 jours ou plus. Cependant, il désactive l’indexation de tout le texte contenu dans ces fichiers.

Vous pouvez vous assurer que le texte des fichiers plus anciens n’est pas indexé, tout en suivant tous les liens de ces fichiers. Dans ce cas, utilisez un masque de date d’inclusion avec le mot-clé "noindex" au lieu d’utiliser un masque de date d’exclusion.

noFollow

Si vous souhaitez indexer le texte sur les pages dont la date est antérieure ou égale à la date spécifiée par le masque d’inclusion, mais que vous ne souhaitez pas suivre les liens de la page correspondante, ajoutez nofollow après le masque de date d’inclusion comme dans l’exemple suivant :

include-days 8 https://www.mydomain.com/photos nofollow

Veillez à séparer le mot-clé du masque par un espace.

Le Le mot-clé nofollow équivaut à une balise méta-robot avec content="nofollow" entre la variable Balise <head>...</head> des pages correspondantes.

server-date

Utilisé pour inclure et exclure des masques.

Le robot de recherche télécharge et analyse généralement chaque fichier avant de vérifier les masques de date. Ce comportement se produit car certains types de fichiers peuvent spécifier une date dans le fichier lui-même. Par exemple, un document HTML peut inclure des méta-balises qui définissent la date du fichier.

Si vous allez exclure de nombreux fichiers en fonction de leur date et que vous ne souhaitez pas placer de charge inutile sur vos serveurs, vous pouvez utiliser server-date après l’URL dans le masque de date.

Ce mot-clé indique au robot de recherche de faire confiance à la date du fichier renvoyé par votre serveur au lieu d’analyser chaque fichier. Par exemple, le masque de date d’exclusion suivant ignore les pages qui correspondent à l’URL si les documents ont plus de 90 jours, selon la date renvoyée par le serveur dans les en-têtes HTTP :

exclude-days 90 https://www.mydomain.com/docs/archive server-date

Si la date renvoyée par le serveur est antérieure de 90 jours ou plus, server-date indique que les documents exclus ne doivent pas être téléchargés depuis votre serveur. Cela se traduit par une indexation plus rapide de vos documents et une charge réduite placée sur vos serveurs. If server-date n’est pas spécifié, le robot de recherche ignore la date renvoyée par le serveur dans les en-têtes HTTP. Au lieu de cela, chaque fichier est téléchargé et vérifié pour voir si la date est spécifiée. Si aucune date n’est spécifiée dans le fichier, le robot de recherche utilise la date renvoyée par le serveur.

Vous ne devez pas utiliser server-date si vos fichiers contiennent des commandes qui remplacent la date du serveur.

regexp

Utilisez pour inclure et exclure des masques.

Tout masque de date précédé de regexp est traité comme une expression régulière.

Si le robot de recherche rencontre des fichiers correspondant à un masque de date d’expression régulière exclu, il n’indexe pas ces fichiers.

Si le robot de recherche rencontre des fichiers correspondant à un masque de date d’expression régulière inclus, il indexe ces documents.

Supposons, par exemple, que vous ayez le masque de date suivant :

exclude-days 180 regexp .*archive.*

Le masque indique au robot de recherche d'exclure les fichiers correspondants de 180 jours ou plus. En d’autres termes, les fichiers contenant le mot "archive" dans leur URL.

Voir Expressions régulières .

Ajout de masques de date pour indexer ou non les parties de votre site web

Vous pouvez utiliser des masques de date pour inclure ou exclure des fichiers des résultats de recherche des clients en fonction de l’âge des fichiers.

Utilisez les champs Test Date et Test URL pour tester si un fichier est ou n’est pas inclus après l’index.

Veillez à reconstruire l’index de votre site afin que les résultats de vos masques d’URL soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site web intermédiaire.

Pour ajouter des masques de date à l’index ou non des parties de votre site web

  1. Dans le menu du produit, cliquez sur Settings > Crawling > Date Masks.

  2. (Facultatif) Sur la page Date Masks, dans le champ Test Date, saisissez une date au format AAAA-MM-JJ (par exemple, 2011-07-25). dans le champ Test URL , saisissez un masque URL de votre site web, puis cliquez sur Test.

  3. Dans le champ Date Masks , saisissez une adresse de masque de date par ligne.

  4. Cliquez sur Save Changes.

  5. (Facultatif) Effectuez l’une des opérations suivantes :

À propos des mots de passe

Pour accéder à des parties de votre site web protégées par l’authentification HTTP de base, vous pouvez ajouter un ou plusieurs mots de passe.

Avant que les effets des paramètres Mot de passe ne soient visibles par les clients, vous devez reconstruire l’index de votre site.

Voir Configuration d’un index incrémentiel d’un site web intermédiaire.

Sur la page Passwords, saisissez chaque mot de passe sur une seule ligne. Le mot de passe se compose d’une URL ou d’un domaine, d’un nom d’utilisateur et d’un mot de passe, comme dans l’exemple suivant :

https://www.mydomain.com/ myname mypassword

Au lieu d’utiliser un chemin d’URL, comme ci-dessus, vous pouvez également spécifier un domaine.

Pour déterminer le domaine correct à utiliser, ouvrez une page web protégée par un mot de passe avec un navigateur et examinez la boîte de dialogue "Saisir le mot de passe réseau".

Dans ce cas, le nom du domaine est "Mon domaine du site".

En utilisant le nom de domaine ci-dessus, votre mot de passe peut se présenter comme suit :

My Site Realm myusername mypassword

Si votre site web comporte plusieurs domaines, vous pouvez créer plusieurs mots de passe en saisissant un nom d’utilisateur et un mot de passe pour chaque domaine sur une ligne distincte, comme dans l’exemple suivant :

Realm1 name1 password1 
Realm2 name2 password2 
Realm3 name3 password3

Vous pouvez mélanger des mots de passe qui contiennent des URL ou des domaines afin que votre liste de mots de passe puisse se présenter comme suit :

Realm1 name1 password1 
https://www.mysite.com/path1/path2 name2 password2 
Realm3 name3 password3 
Realm4 name4 password4 
https://www.mysite.com/path1/path5 name5 password5 
https://www.mysite.com/path6 name6 password6

Dans la liste ci-dessus, le premier mot de passe est utilisé et contient un domaine ou une URL correspondant à la demande d’authentification du serveur. Même si le fichier à https://www.mysite.com/path1/path2/index.html se trouve dans Realm3, par exemple, name2 et password2 sont utilisés, car le mot de passe défini avec l’URL est répertorié au-dessus de celui défini avec le domaine.

Ajout de mots de passe pour accéder aux zones de votre site web nécessitant une authentification

Vous pouvez utiliser des mots de passe pour accéder aux zones protégées par mot de passe de votre site web à des fins d’analyse et d’indexation.

Avant que les effets de votre mot de passe ne soient visibles par les clients, veillez à reconstruire l’index de votre site.

Voir Configuration d’un index incrémentiel d’un site web intermédiaire.

Ajout de mots de passe pour accéder aux zones de votre site web nécessitant une authentification

  1. Dans le menu du produit, cliquez sur Settings > Crawling > Passwords.

  2. Sur la page Passwords, dans le champ Passwords, saisissez un domaine ou une URL, ainsi que son nom d’utilisateur et son mot de passe associés, séparés par un espace.

    Exemple de mot de passe de domaine et de mot de passe URL sur des lignes distinctes :

    Realm1 name1 password1 
    https://www.mysite.com/path1/path2 name2 password2
    

    Ajoutez uniquement un mot de passe par ligne.

  3. Cliquez sur Save Changes.

  4. (Facultatif) Effectuez l’une des opérations suivantes :

À propos des types de contenu

Vous pouvez utiliser Content Types pour sélectionner les types de fichiers à analyser et à indexer pour ce compte.

Les types de contenu que vous pouvez choisir d’analyser et d’indexer incluent des documents PDF, des documents texte, des films de Flash d’Adobe, des fichiers provenant d’applications Microsoft Office telles que Word, Excel et PowerPoint et du texte dans des fichiers MP3. Le texte qui se trouve dans les types de contenu sélectionnés est recherché avec le reste du texte de votre site web.

Avant que les effets des paramètres Types de contenu ne soient visibles par les clients, vous devez reconstruire l’index de votre site.

Voir Configuration d’un index incrémentiel d’un site web intermédiaire.

A propos de l'indexation des fichiers de musique MP3

Si vous sélectionnez l’option Text in MP3 Music Files sur la page Content Types, un fichier MP3 est analysé et indexé de deux façons. La première méthode, la plus courante, consiste à utiliser une balise href d’ancrage dans un fichier HTML, comme dans l’exemple suivant :

<a href="MP3-file-URL"></a>

La deuxième méthode consiste à saisir l’URL du fichier MP3 en tant que point d’entrée d’URL.

Voir À propos des points d’entrée d’URL.

Un fichier MP3 est reconnu par son type MIME "audio/mpeg".

Gardez à l’esprit que les fichiers de musique MP3 peuvent être très volumineux, même s’ils ne contiennent généralement qu’une petite quantité de texte. Par exemple, les fichiers MP3 peuvent éventuellement stocker des éléments tels que le nom de l’album, le nom de l’artiste, le titre de la chanson, le genre de la chanson, l’année de publication et un commentaire. Ces informations sont stockées à la fin du fichier dans ce qui est appelé la balise . Les fichiers MP3 contenant des informations TAG sont indexés de la manière suivante :

  • Le titre de la chanson est traité comme le titre d’une page HTML.
  • Le commentaire est traité comme une description définie pour une page HTML.
  • Le genre est traité comme un mot-clé défini pour une page HTML.
  • Le nom de l’artiste, le nom de l’album et l’année de publication sont traités comme le corps d’une page HTML.

Notez que chaque fichier MP3 analysé et indexé sur votre site web compte comme une page.

Si votre site web contient de nombreux fichiers MP3 volumineux, vous pouvez dépasser la limite d’octets d’indexation de votre compte. Si cela se produit, vous pouvez désélectionner Text in MP3 Music Files sur la page Content Types afin d’empêcher l’indexation de tous les fichiers MP3 de votre site web.

Si vous souhaitez uniquement empêcher l’indexation de certains fichiers MP3 sur votre site web, vous pouvez effectuer l’une des opérations suivantes :

  • Entourez les balises d’ancrage qui se lient aux fichiers MP3 avec les balises <nofollow> et </nofollow>. Le robot de recherche ne suit pas les liens entre ces balises.

  • Ajoutez les URL des fichiers MP3 en tant que masques d’exclusion.

    Voir À propos des masques d’URL.

Sélection des types de contenu à analyser et à indexer

Vous pouvez utiliser Content Types pour sélectionner les types de fichiers à analyser et à indexer pour ce compte.

Les types de contenu que vous pouvez choisir d’analyser et d’indexer incluent des documents PDF, des documents texte, des films de Flash d’Adobe, des fichiers provenant d’applications Microsoft Office telles que Word, Excel et PowerPoint et du texte dans des fichiers MP3. Le texte qui se trouve dans les types de contenu sélectionnés est recherché avec le reste du texte de votre site web.

Avant que les effets des paramètres Types de contenu ne soient visibles par les clients, vous devez reconstruire l’index de votre site.

Voir Configuration d’un index incrémentiel d’un site web intermédiaire.

Pour analyser et indexer des fichiers MP3 chinois, japonais ou coréens, procédez comme suit. Ensuite, dans Settings > Metadata > Injections, spécifiez le jeu de caractères utilisé pour coder les fichiers MP3.

Voir À propos des injections.

Pour sélectionner les types de contenu à analyser et à indexer

  1. Dans le menu du produit, cliquez sur Settings > Crawling > Content Types.

  2. Sur la page Content Types, vérifiez les types de fichiers que vous souhaitez analyser et indexer sur votre site web.

  3. Cliquez sur Save Changes.

  4. (Facultatif) Effectuez l’une des opérations suivantes :

À propos des connexions

Vous pouvez utiliser Connexions pour ajouter jusqu’à dix connexions HTTP que le robot de recherche utilise pour indexer votre site web.

L’augmentation du nombre de connexions peut réduire considérablement le temps nécessaire à l’exécution d’une analyse et d’un index. Notez toutefois que chaque connexion supplémentaire augmente la charge sur votre serveur.

Ajout de connexions pour augmenter la vitesse d’indexation

Vous pouvez réduire le temps nécessaire pour indexer votre site web en utilisant Connexions pour augmenter le nombre de connexions HTTP simultanées utilisées par le moteur de recherche. Vous pouvez ajouter jusqu’à dix connexions.

Gardez à l’esprit que chaque connexion supplémentaire augmente la charge placée sur votre serveur.

Ajout de connexions pour augmenter la vitesse d’indexation

  1. Dans le menu du produit, cliquez sur Settings > Crawling > Connections.

  2. Sur la page Parallel Indexing Connections, dans le champ Number of Connections, saisissez le nombre de connexions (1 à 10) à ajouter.

  3. Cliquez sur Save Changes.

  4. (Facultatif) Effectuez l’une des opérations suivantes :

A propos de l’envoi de formulaire

Vous pouvez utiliser l’envoi de formulaire pour vous aider à reconnaître et à traiter les formulaires sur votre site web.

Pendant l’analyse et l’indexation de votre site web, chaque formulaire rencontré est comparé aux définitions de formulaire que vous avez ajoutées. Si un formulaire correspond à une définition de formulaire, le formulaire est envoyé pour indexation. Si un formulaire correspond à plusieurs définitions, le formulaire est envoyé une fois pour chaque définition correspondante.

Ajout de définitions de formulaire pour l’indexation de formulaires sur votre site web

Vous pouvez utiliser Form Submission pour faciliter le traitement des formulaires reconnus sur votre site web à des fins d’indexation.

Veillez à reconstruire l’index de votre site afin que les résultats de vos modifications soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site web intermédiaire.

Ajout de définitions de formulaire pour l’indexation de formulaires sur votre site web

  1. Dans le menu du produit, cliquez sur Settings > Crawling > Form Submission.

  2. Sur la page Form Submission, cliquez sur Add New Form.

  3. Sur la page Add Form Definition, définissez les options Form Recognition et Form Submission.

    Les cinq options de la section Form Recognition de la page Form Definition sont utilisées pour identifier les formulaires de vos pages web qui peuvent être traités.

    Les trois options de la section Form Submission permettent de spécifier les paramètres et les valeurs qui sont envoyés avec un formulaire à votre serveur web.

    Saisissez un paramètre de reconnaissance ou d’envoi par ligne. Chaque paramètre doit inclure un nom et une valeur.

    Option

    Description

    Reconnaissance des formulaires

    Masque d’URL de page

    Identifiez la ou les pages web qui contiennent le formulaire. Pour identifier un formulaire qui apparaît sur une seule page, saisissez l’URL de cette page, comme dans l’exemple suivant :

    https://www.mydomain.com/login.html

    Pour identifier les formulaires qui apparaissent sur plusieurs pages, spécifiez un masque d’URL qui utilise des caractères génériques pour décrire les pages. Pour identifier les formulaires rencontrés sur une page ASP sous https://www.mydomain.com/register/ , vous devez par exemple spécifier les éléments suivants :

    https://www.mydomain.com/register/*.asp 

    Vous pouvez également utiliser une expression régulière pour identifier plusieurs pages. Il vous suffit de spécifier la variable Mot-clé regexp devant le masque d'URL, comme dans l'exemple suivant :

    regexp ^https://www\.mydomain\.com/.*/login\.html$

    Masque des URL d’action

    Identifie l’attribut d’action de la variable Balise <form> .

    Tout comme le masque URL de la page, le masque URL d’action peut prendre la forme d’une seule URL, d’une URL avec des caractères génériques ou d’une expression régulière.

    Le masque d'URL peut être l'un des suivants :

    • Un chemin complet comme dans l’exemple suivant : https://www.mydomain.com/products.html
    • Un chemin partiel comme dans l’exemple suivant : https://www.mydomain.com/products
    • Une URL qui utilise des caractères génériques comme dans l’exemple suivant : https://www.mydomain.com/*.html
    • Une expression régulière comme dans l’exemple suivant : regexp&nbsp^https://www\.mydomain\.com/.*/login\.html$

    Si vous ne souhaitez pas indexer le texte sur des pages identifiées par un masque d’URL ou par un masque d’URL d’action, ou si vous ne souhaitez pas que des liens soient suivis sur ces pages, vous pouvez utiliser la variable noindex et nofollow mots-clés. Vous pouvez ajouter ces mots-clés à vos masques à l’aide de masques d’URL ou de points d’entrée.

    Voir À propos des points d’entrée d’URL .

    Voir À propos des masques d’URL .

    Masque du nom du formulaire

    Identifie les formulaires si la variable Les balises <form> de vos pages web contiennent un attribut name .

    Vous pouvez utiliser un nom simple ( login_form ), un nom avec un caractère générique ( form* ) ou une expression régulière ( regexp ^.*authorize.*$ ).

    En règle générale, vous pouvez laisser ce champ vide, car les formulaires n’ont généralement pas d’attribut name .

    Masque des ID de formulaire

    Identifie les formulaires si la variable Les balises <form> de vos pages web contiennent un attribut id .

    Vous pouvez utiliser un nom simple ( login_form ), un nom avec un caractère générique ( form* ) ou une expression régulière ( regexp ^.*authorize.*$ ).

    En règle générale, vous pouvez laisser ce champ vide, car les formulaires n’ont généralement pas d’attribut name .

    Paramètres

    Identifiez les formulaires qui contiennent ou ne contiennent pas un paramètre nommé ou un paramètre nommé avec une valeur spécifique.

    Par exemple, pour identifier un formulaire contenant un paramètre d’e-mail prédéfini sur rick_brough@mydomain.com, un paramètre de mot de passe, mais pas un paramètre de prénom, vous devez spécifier les paramètres suivants, une par ligne :

    email=rick_brough@mydomain.com password not first-name

    Envoi de formulaire

    Remplacer l’URL d’action

    Spécifiez quand la cible de l’envoi du formulaire est différente de ce qui est spécifié dans l’attribut action du formulaire.

    Par exemple, vous pouvez utiliser cette option lorsque le formulaire est envoyé par le biais d’une fonction JavaScript qui construit une valeur d’URL différente de celle du formulaire.

    Méthode de remplacement

    Indiquez quand la cible de l’envoi du formulaire est différente de celle utilisée dans l’attribut d’action du formulaire et quand l’envoi du code JavaScript a modifié la méthode .

    Les valeurs par défaut de tous les paramètres de formulaire ( <input> balises, y compris les champs masqués), par défaut <option> d’un Balise <select> et texte par défaut entre Les balises <textarea>...</textarea> sont lues à partir de la page web. Cependant, tout paramètre répertorié dans la section Envoi de formulaire , dans le champ Paramètres , est remplacé par les valeurs par défaut du formulaire.

    Paramètres

    Vous pouvez préfixer les paramètres d’envoi du formulaire à l’aide de la fonction Mot-clé not .

    Lorsque vous ajoutez un préfixe à un paramètre not , il n’est pas envoyé dans le cadre de l’envoi du formulaire. Ce comportement s’avère utile pour les cases à cocher qui doivent être soumises et désélectionnées.

    Supposons, par exemple, que vous souhaitiez envoyer les paramètres suivants :

    • Le paramètre d’e-mail avec la valeur nobody@mydomain.com
    • Le paramètre password avec la valeur tryme
    • Le paramètre de la case à cocher a été désélectionné.
    • Toutes les autres Paramètres <form> comme valeurs par défaut

    Votre paramètre d’envoi de formulaire ressemblerait à ce qui suit :

    email=nobody@mydomain.com password=tryme not mycheckbox

    L’attribut method de la variable La balise <form> de la page web permet de déterminer si les données sont envoyées à votre serveur à l’aide de la méthode GET ou de la méthode POST.

    Si la variable La balise <form> ne contient pas d’attribut de méthode, le formulaire est envoyé à l’aide de la méthode GET.

  4. Cliquez sur Add.

  5. (Facultatif) Effectuez l’une des opérations suivantes :

Modification d’une définition de formulaire

Vous pouvez modifier une définition de formulaire existante si un formulaire de votre site web a été modifié ou si vous avez simplement besoin de la modifier.

Gardez à l’esprit qu’il n’existe aucune fonction History sur la page Form Submission pour annuler toute modification apportée à une définition de formulaire.

Veillez à reconstruire l’index de votre site afin que les résultats de vos modifications soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site web intermédiaire.

Pour modifier une définition de formulaire

  1. Dans le menu du produit, cliquez sur Settings > Crawling > Form Submission.

  2. Sur la page Form Submission, cliquez sur Edit à droite d’une définition de formulaire que vous souhaitez mettre à jour.

  3. Sur la page Edit Form Definition, définissez les options Form Recognition et Form Submission.

    Consultez le tableau des options sous Ajout de définitions de formulaire pour l’indexation de formulaires sur votre site web.

  4. Cliquez sur Save Changes.

  5. (Facultatif) Effectuez l’une des opérations suivantes :

Suppression d’une définition de formulaire

Vous pouvez supprimer une définition de formulaire existante si le formulaire n’existe plus sur votre site web ou si vous ne souhaitez plus traiter et indexer un formulaire particulier.

Gardez à l’esprit qu’il n’existe aucune fonction History sur la page Form Submission pour annuler toute modification apportée à une définition de formulaire.

Veillez à reconstruire l’index de votre site afin que les résultats de vos modifications soient visibles par vos clients.

Voir Configuration d’un index incrémentiel d’un site web intermédiaire.

Pour supprimer une définition de formulaire

  1. Dans le menu du produit, cliquez sur Settings > Crawling > Form Submission.

  2. Sur la page Form Submission, cliquez sur Delete à droite d’une définition de formulaire à supprimer.

    Veillez à choisir la définition de formulaire appropriée à supprimer. Il n’existe pas de boîte de dialogue de confirmation de suppression lorsque vous cliquez sur Delete à l’étape suivante.

  3. Sur la page Delete Form Definition, cliquez sur Delete.

  4. (Facultatif) Effectuez l’une des opérations suivantes :

À propos du connecteur d’index

Utilisez Index Connector pour définir des sources d’entrée supplémentaires pour indexer des pages XML ou tout type de flux.

Vous pouvez utiliser une source d’entrée de flux de données pour accéder au contenu stocké dans un formulaire qui diffère de ce qui est généralement découvert sur un site web à l’aide de l’une des méthodes d’analyse disponibles. Chaque document analysé et indexé correspond directement à une page de contenu de votre site web. Cependant, un flux de données provient d’un document XML ou d’un fichier texte délimité par des virgules ou des tabulations et contient les informations de contenu à indexer.

Une source de données XML est constituée de normes XML, ou enregistrements, qui contiennent des informations qui correspondent à des documents individuels. Ces documents individuels sont ajoutés à l’index. Un flux de données texte contient des enregistrements individuels délimités par de nouvelles lignes qui correspondent à des documents individuels. Ces documents individuels sont également ajoutés à l’index. Dans les deux cas, une configuration du connecteur d’index décrit comment interpréter le flux. Chaque configuration décrit l’emplacement du fichier et la manière dont les serveurs y accèdent. La configuration décrit également les informations de "mappage". En d’autres termes, la manière dont les éléments de chaque enregistrement sont utilisés pour remplir les champs de métadonnées dans l’index obtenu.

Après avoir ajouté une définition de connecteur d’index à la page Staged Index Connector Definitions, vous pouvez modifier n’importe quel paramètre de configuration, sauf pour les valeurs Nom ou Type.

La page Index Connector présente les informations suivantes :

  • Nom des connecteurs d’index définis que vous avez configurés et ajoutés.

  • L’un des types de source de données suivants pour chaque connecteur que vous avez ajouté :

    • Texte : fichiers "plats" simples, délimités par des virgules, délimités par des tabulations ou autres formats délimités de manière cohérente.
    • Flux : flux XML.
    • XML - Collections de documents XML.
  • Si le connecteur est activé ou non pour l’analyse et l’indexation suivantes effectuées.

  • Adresse de la source de données.

Voir aussi À propos du connecteur d’index

Fonctionnement du processus d’indexation pour les configurations de texte et de flux dans le connecteur d’index

Étape

Processus

Description

1

Téléchargez la source de données.

Pour les configurations Texte et Flux , il s’agit d’un simple téléchargement de fichier.

2

Ventilez la source de données téléchargée en pseudo-documents individuels.

Pour Texte , chaque nouvelle ligne de texte délimitée par des lignes correspond à un document individuel et est analysée à l’aide du délimiteur spécifié, tel qu’une virgule ou un onglet.

Pour le flux , les données de chaque document sont extraites à l’aide d’un modèle d’expression régulière sous la forme suivante :

<${Itemtag}>(.*?)</${Itemtag}>

À l’aide de Map sur la page Index Connector Add , créez une copie mise en cache des données, puis créez une liste de liens pour le moteur de recherche. Les données sont stockées dans un cache local et sont renseignées avec les champs configurés.

Les données analysées sont écrites dans le cache local.

Ce cache est lu ultérieurement pour créer les documents HTML simples dont le moteur de recherche a besoin. Par exemple :

<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>

L’élément <title> n’est généré que lorsqu’il existe un mappage sur le champ de métadonnées Titre. De même, l’élément <body> n’est généré que lorsqu’il existe un mappage sur le champ de métadonnées Body.

Important : L’affectation de valeurs à la balise meta d’URL prédéfinie n’est pas prise en charge.

Pour tous les autres mappages, les balises <meta> sont générées pour chaque champ contenant des données présentes dans le document d’origine.

Les champs de chaque document sont ajoutés au cache. Pour chaque document écrit dans le cache, un lien est également généré, comme dans les exemples suivants :

<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....

Le mappage de la configuration doit comporter un champ identifié comme Clé Principal. Ce mappage forme la clé utilisée lorsque les données sont extraites du cache.

Le robot reconnaît l’index de l’URL : préfixe de schéma, qui peut ensuite accéder aux données mises en cache localement.

3

Analyse du jeu de documents mis en cache.

Index : Les liens sont ajoutés à la liste en attente du moteur de recherche et sont traités dans l’ordre d’analyse normal.

4

Traitez chaque document.

La valeur de clé de chaque lien correspond à une entrée dans le cache. L’analyse de chaque lien entraîne la récupération des données de ce document à partir du cache. Il est ensuite "assemblé" dans une image HTML qui est traitée et ajoutée à l’index.

Fonctionnement du processus d’indexation pour les configurations XML dans le connecteur d’index

Le processus d’indexation pour la configuration XML est similaire au processus pour les configurations Texte et Flux avec les modifications et exceptions mineures suivantes.

Les documents des analyses XML étant déjà séparés en fichiers individuels, les étapes 1 et 2 du tableau ci-dessus ne s’appliquent pas directement. Si vous spécifiez une URL dans les champs Host Address et File Path de la page Index Connector Add, elle est téléchargée et traitée comme un document HTML normal. On s’attend à ce que le document de téléchargement contienne une collection de liens <a href="{url}"..., chacun pointant vers un document XML qui est traité. Ces liens sont convertis sous la forme suivante :

<a href="index:<ic_config_name>?url="{url}">

Par exemple, si la configuration de l’Adobe renvoyait les liens suivants :

<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a> 
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>

Dans le tableau ci-dessus, l’étape 3 ne s’applique pas et l’étape 4 est complétée au moment de l’analyse et de l’indexation.

Vous pouvez également mélanger vos documents XML à d’autres documents qui ont été découverts naturellement par le biais du processus d’analyse. Dans ce cas, vous pouvez utiliser des règles de réécriture ( Settings > Rewrite Rules > Crawl List Retrieve URL Rules) pour modifier les URL des documents XML afin de les diriger vers Index Connector.

Voir À propos de l’analyse des règles de récupération d’URL de la liste.

Par exemple, supposons que vous ayez la règle de réécriture suivante :

RewriteRule (^http.*[.]xml$) index:Adobe?key=$1

Cette règle convertit toute URL se terminant par .xml en lien connecteur d’index. Le robot reconnaît et réécrit le schéma d’URL index:. Le processus de téléchargement est redirigé vers le serveur Apache Index Connector sur la Principale. Chaque document téléchargé est examiné à l’aide du même modèle d’expression régulière que celui utilisé avec les flux. Dans ce cas, cependant, le document HTML fabriqué n’est pas enregistré dans le cache. Au lieu de cela, il est directement transmis au moteur de recherche pour le traitement des index.

Configuration de plusieurs connecteurs d’index

Vous pouvez définir plusieurs configurations du connecteur d’index pour n’importe quel compte. Les configurations sont automatiquement ajoutées à la liste déroulante dans Settings > Crawl > URL Entrypoints comme illustré ci-dessous :

La sélection d’une configuration dans la liste déroulante ajoute la valeur à la fin de la liste des points d’entrée d’URL.

REMARQUE

Bien que les configurations du connecteur d’index désactivées soient ajoutées à la liste déroulante, vous ne pouvez pas les sélectionner. Si vous sélectionnez la même configuration de connecteur d’index une seconde fois, elle est ajoutée à la fin de la liste et l’instance précédente est supprimée.

Pour spécifier un point d’entrée du connecteur d’index pour une analyse incrémentielle, vous pouvez ajouter des entrées au format suivant :

index:<indexconnector_configuration_name>

Le moteur de recherche traite chaque entrée ajoutée si elle se trouve sur la page Index Connectors et si elle est activée.

Remarque : Comme l’URL de chaque document est construite à l’aide du nom de configuration du connecteur d’index et de la clé Principale du document, veillez à utiliser le même nom de configuration du connecteur d’index lors de l’exécution de mises à jour incrémentielles ! Cela permet à Adobe Search&Promote de mettre correctement à jour les documents indexés précédemment.

Voir aussi À propos des points d’entrée d’URL.

Utilisation des mappages de configuration lors de l’ajout d’un connecteur d’index

Lorsque vous ajoutez un connecteur d’index, vous pouvez éventuellement utiliser la fonction Setup Maps pour télécharger un exemple de votre source de données. Les données sont examinées pour déterminer l’adéquation de l’indexation.

Si vous choisissez le type Connecteur d’index...

La fonction de configuration des cartes...

Texte

Détermine la valeur du délimiteur en commençant par essayer les onglets, puis les barres verticales ( | ), et enfin des virgules ( , ). Si vous avez déjà spécifié une valeur de délimiteur avant de cliquer sur Mappages de configuration , cette valeur est utilisée à la place.

Le modèle le mieux adapté entraîne le remplissage des champs de mappage avec des estimations aux valeurs de balise et de champ appropriées. De plus, un échantillonnage des données analysées s’affiche. Veillez à sélectionner En-têtes dans la première ligne si vous savez que le fichier contient une ligne d’en-tête. La fonction de configuration utilise ces informations pour mieux identifier les entrées de mappage résultantes.

Flux

Télécharge la source de données et effectue une analyse XML simple.

Les identifiants XPath résultants sont affichés dans les lignes Balises du tableau Carte et les valeurs similaires dans Champs. Ces lignes identifient uniquement les données disponibles et ne génèrent pas les définitions XPath les plus complexes. Cependant, il reste utile, car il décrit les données XML et identifie les valeurs des balises intelligentes.

Remarque : La fonction Setup Maps télécharge l’intégralité de la source XML pour effectuer son analyse. Si le fichier est volumineux, cette opération peut expirer.

En cas de réussite, cette fonction identifie tous les éléments XPath possibles, dont la plupart ne sont pas souhaitables. Veillez à examiner les définitions de mappage qui en résultent et à supprimer celles dont vous n’avez pas besoin ou que vous souhaitez.

XML

Télécharge l’URL d’un document individuel représentatif, et non la Principale liste de liens. Ce document unique est analysé à l’aide du même mécanisme que celui utilisé avec les flux et les résultats s’affichent.

Avant de cliquer sur Ajouter pour enregistrer la configuration, veillez à restaurer l’URL dans le Principal document de liste de liens.

Important : La fonction Setup Maps (Mappages de configuration) peut ne pas fonctionner pour les jeux de données XML volumineux, car l’analyseur de fichiers tente de lire l’intégralité du fichier en mémoire. Par conséquent, vous pourriez rencontrer une condition de mémoire insuffisante. Cependant, lorsque le même document est traité au moment de l’indexation, il n’est pas lu en mémoire. Au lieu de cela, les documents volumineux sont traités "en déplacement" et ne sont pas lus entièrement en mémoire.

Utilisation de l’aperçu lors de l’ajout d’un connecteur d’index

Au moment de l’ajout d’un connecteur d’index, vous pouvez éventuellement utiliser la fonction Preview pour valider les données, comme si vous l’enregistriez. Il exécute un test par rapport à la configuration, mais sans enregistrer la configuration dans le compte. Le test accède à la source de données configurée. Cependant, il écrit le cache de téléchargement dans un emplacement temporaire. il n’entre pas en conflit avec le dossier cache principal utilisé par l’analyseur d’indexation.

L’aperçu traite uniquement une valeur par défaut de cinq documents, comme contrôlé par Acct:IndexConnector-Preview-Max-Documents. Les documents prévisualisés sont affichés sous forme source, dans la mesure où ils sont présentés au moteur de recherche d'indexation. L’affichage est similaire à la fonction "Afficher la source" d’un navigateur Web. Vous pouvez parcourir les documents de l’ensemble d’aperçu à l’aide de liens de navigation standard.

L’aperçu ne prend pas en charge les configurations XML, car ces documents sont traités directement et ne sont pas téléchargés dans le cache.

Ajout d’une définition de connecteur d’index

Chaque configuration du connecteur d’index définit une source de données et des mappages afin de relier les éléments de données définis pour cette source aux champs de métadonnées de l’index.

Avant que les effets de la nouvelle définition activée ne soient visibles par les clients, reconstruisez l’index de votre site.

Pour ajouter une définition de connecteur d’index

  1. Dans le menu du produit, cliquez sur Settings > Crawling > Index Connector.

  2. Sur la page Stage Index Connector Definitions, cliquez sur Add New Index Connector.

  3. Sur la page Index Connector Add, définissez les options de connecteur de votre choix. Les options disponibles dépendent de la balise Type sélectionnée.

    Option

    Description

    Nom

    Nom unique de la configuration du connecteur d’index. Vous pouvez utiliser des caractères alphanumériques. Les caractères "_" et "-" sont également autorisés.

    Type

    Source de vos données. Le type de source de données que vous sélectionnez affecte les options résultantes disponibles sur la page Index Connector Add . Vous pouvez choisir parmi les options suivantes :

    • Texte

      Fichiers texte plats simples, délimités par des virgules, délimités par des tabulations ou autres formats délimités de manière cohérente. Chaque nouvelle ligne de texte délimitée par des lignes correspond à un document individuel et est analysée à l’aide du délimiteur spécifié.

      Vous pouvez associer chaque valeur, ou colonne, à un champ de métadonnées, référencé par le numéro de colonne, en commençant à 1 (un).

    • Flux

      Télécharge un Principal document XML contenant plusieurs "lignes" d’informations.

    • XML

      Télécharge un document XML Principal contenant des liens ( <a> ) à des documents XML individuels.

    Type de source de données : Texte

    Activé

    Active la configuration pour analyser et indexer. Vous pouvez également désactiver la configuration pour empêcher l’analyse et l’indexation.

    Remarque : Les configurations du connecteur d’index désactivées sont ignorées si elles se trouvent dans une liste de points d’entrée.

    Adresse de l’hôte

    Indique l’adresse de l’hôte du serveur où se trouvent vos données.

    Si vous le souhaitez, vous pouvez spécifier un chemin d’accès URI (Uniform Resource Identifier) complet au document de source de données, comme dans les exemples suivants :

    https://www.somewhere.com/some_path/some_file.xml

    ou

    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.xml

    L’URI est ventilé en entrées appropriées pour les champs Adresse de l’hôte, Chemin du fichier, Protocole et, éventuellement, Nom d’utilisateur et Mot de passe.

    Indique l’adresse IP ou l’adresse URL du système hôte sur lequel se trouve le fichier de source de données.

    Chemin du fichier

    Spécifie le chemin d’accès au fichier de texte simple, délimité par des virgules, délimité par des tabulations ou à tout autre fichier de format délimité de manière cohérente.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Chemin d’accès au fichier incrémentiel

    Spécifie le chemin d’accès au fichier de texte simple, délimité par des virgules, délimité par des tabulations ou à tout autre fichier de format délimité de manière cohérente.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Ce fichier, s’il est spécifié, est téléchargé et traité lors des opérations Index incrémentiel. Si aucun fichier n’est spécifié, le fichier répertorié sous Chemin du fichier est utilisé à la place.

    Chemin d’accès au fichier vertical

    Spécifie le chemin d’accès au fichier texte plat simple, délimité par des virgules, délimité par des tabulations ou à tout autre fichier de format délimité de manière cohérente à utiliser lors d’une mise à jour verticale.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Ce fichier, s’il est spécifié, est téléchargé et traité lors des opérations de mise à jour verticale .

    Remarque : Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonctionnalité à utiliser.

    Supprime le chemin du fichier

    Spécifie le chemin d’accès au fichier texte plat simple, contenant une seule valeur d’identificateur de document par ligne.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Ce fichier, s’il est spécifié, est téléchargé et traité lors des opérations Index incrémentiel. Les valeurs trouvées dans ce fichier sont utilisées pour construire des requêtes de suppression pour supprimer des documents indexés précédemment. Les valeurs de ce fichier doivent correspondre aux valeurs trouvées dans les fichiers Chemin de fichier complet ou incrémentiel, dans la colonne identifiée en tant que Clé Principal .

    Remarque : Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonctionnalité à utiliser.

    Protocole

    Indique le protocole utilisé pour accéder au fichier. Vous pouvez choisir parmi les options suivantes :

    • HTTP

      Si nécessaire, vous pouvez saisir des informations d’identification d’authentification appropriées pour accéder au serveur HTTP.

    • HTTPS

      Si nécessaire, vous pouvez saisir les informations d’identification d’authentification appropriées pour accéder au serveur HTTPS.

    • FTP

      Vous devez saisir les informations d’identification d’authentification appropriées pour accéder au serveur FTP.

    • SFTP

      Vous devez saisir les informations d’identification d’authentification appropriées pour accéder au serveur SFTP.

    • Fichier

    Expiration

    Indique le délai d’expiration, en secondes, pour les connexions FTP, SFTP, HTTP ou HTTPS. Cette valeur doit être comprise entre 30 et 300.

    Reprises

    Indique le nombre maximal de tentatives pour les connexions FTP, SFTP, HTTP ou HTTPS en échec. Cette valeur doit être comprise entre 0 et 10.

    Une valeur de zéro (0) permet d’empêcher les tentatives de nouvelle tentative.

    Encodage

    Spécifie le système de codage des caractères utilisé dans le fichier de source de données spécifié.

    Délimiteur

    Indique le caractère à utiliser pour délimiter chaque champ du fichier de source de données spécifié.

    La virgule ( , ) est un exemple de délimiteur. La virgule agit comme un délimiteur de champ qui permet de séparer les champs de données dans le fichier de source de données spécifié.

    Sélectionnez l’onglet ? pour utiliser le caractère de tabulation horizontale comme délimiteur.

    En-têtes de première ligne

    Indique que la première ligne du fichier de source de données contient des informations d’en-tête uniquement, et non des données.

    Nombre minimum de documents à indexer

    S’il est défini sur une valeur positive, cette valeur indique le nombre minimum d’enregistrements attendus dans le fichier téléchargé. Si moins d’enregistrements sont reçus, l’opération d’index est abandonnée.

    Remarque : Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonctionnalité à utiliser.

    Remarque : Cette fonctionnalité n’est utilisée que lors des opérations d’index complètes.

    Carte

    Indique les mappages colonne/métadonnées à l’aide des numéros de colonne.

    • Colonne

      Spécifie un numéro de colonne, la première colonne étant 1 (une). Pour ajouter de nouvelles lignes de mappage pour chaque colonne, sous Action , cliquez sur + .

      Il n’est pas nécessaire de référencer chaque colonne de la source de données. Vous pouvez plutôt choisir d’ignorer les valeurs.

    • Champ

      Définit la valeur de l’attribut name utilisée pour chaque balise <meta> générée.

    • Métadonnées?

      Le champ devient une liste déroulante à partir de laquelle vous pouvez sélectionner des champs de métadonnées définis pour le compte actif.

      La valeur Champ peut être un champ de métadonnées non défini, si vous le souhaitez. Un champ de métadonnées non défini est parfois utile pour créer du contenu utilisé par Script de filtrage .

      Voir À propos du filtrage des scripts .

      Lorsque Index Connector traite des documents XML avec plusieurs accès sur n’importe quel champ de mappage, les valeurs multiples sont concaténées en une seule valeur dans le document mis en cache résultant. Par défaut, ces valeurs sont combinées à l’aide d’un délimiteur virgule. Cependant, supposons que la valeur de champ correspondante soit un champ de métadonnées défini. En outre, ce champ a l’attribut Listes autorisées . Dans ce cas, la valeur Délimiteurs de liste du champ, qui est le premier délimiteur défini, est utilisée dans la concaténation.

    • Clé primaire?

      Une seule définition de mappage est identifiée en tant que clé Principale. Ce champ devient la référence unique qui est présentée lorsque ce document est ajouté à l’index. Cette valeur est utilisée dans l’URL du document dans l’index.

      Les valeurs Clé Principal doivent être uniques dans tous les documents représentés par la configuration du connecteur d’index. Les doublons rencontrés seront ignorés. Si vos documents source ne contiennent pas de valeur unique unique à utiliser comme clé Principal , mais que deux ou plusieurs champs combinés peuvent former un identifiant unique, vous pouvez définir la clé Principal en combinant plusieurs valeurs colonne avec une barre verticale ("|") délimitant les valeurs.

    • Bande du code HTML ?

      Lorsque cette option est cochée, toutes les balises HTML figurant dans les données de ce champ sont supprimées.

    • Action

      Permet d’ajouter des lignes à la carte ou de supprimer des lignes de la carte. L’ordre des lignes n’est pas important.

    Type de source de données : Flux

    Activé

    Active la configuration pour analyser et indexer. Vous pouvez également désactiver la configuration pour empêcher l’analyse et l’indexation.

    Remarque : Les configurations du connecteur d’index désactivées sont ignorées si elles se trouvent dans une liste de points d’entrée.

    Adresse de l’hôte

    Indique l’adresse IP ou l’adresse URL du système hôte sur lequel se trouve le fichier de source de données.

    Chemin du fichier

    Spécifie le chemin d’accès au document XML Principal qui contient plusieurs "lignes" d’informations.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Chemin d’accès au fichier incrémentiel

    Spécifie le chemin d’accès au document XML incrémentiel qui contient plusieurs "lignes" d’informations.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Ce fichier, s’il est spécifié, est téléchargé et traité lors des opérations Index incrémentiel. Si aucun fichier n’est spécifié, le fichier répertorié sous Chemin du fichier est utilisé à la place.

    Chemin d’accès au fichier vertical

    Spécifie le chemin d’accès au document XML qui contient plusieurs "lignes" d’informations éparses à utiliser lors d’une mise à jour verticale.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Ce fichier, s’il est spécifié, est téléchargé et traité lors des opérations de mise à jour verticale .

    Remarque : Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonctionnalité à utiliser.

    Supprime le chemin du fichier

    Spécifie le chemin d’accès au fichier texte plat simple, contenant une seule valeur d’identificateur de document par ligne.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Ce fichier, s’il est spécifié, est téléchargé et traité lors des opérations Index incrémentiel. Les valeurs trouvées dans ce fichier sont utilisées pour construire des requêtes de suppression pour supprimer des documents indexés précédemment. Les valeurs de ce fichier doivent correspondre aux valeurs trouvées dans les fichiers Chemin de fichier complet ou incrémentiel, dans la colonne identifiée en tant que Clé Principal .

    Remarque : Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonctionnalité à utiliser.

    Protocole

    Indique le protocole utilisé pour accéder au fichier. Vous pouvez choisir parmi les options suivantes :

    • HTTP

      Si nécessaire, vous pouvez saisir des informations d’identification d’authentification appropriées pour accéder au serveur HTTP.

    • HTTPS

      Si nécessaire, vous pouvez saisir les informations d’identification d’authentification appropriées pour accéder au serveur HTTPS.

    • FTP

      Vous devez saisir les informations d’identification d’authentification appropriées pour accéder au serveur FTP.

    • SFTP

      Vous devez saisir les informations d’identification d’authentification appropriées pour accéder au serveur SFTP.

    • Fichier

    Itemtag

    Identifie l’élément XML que vous pouvez utiliser pour identifier les lignes XML individuelles dans le fichier de source de données que vous avez spécifié.

    Par exemple, dans le fragment de flux suivant d’un document XML d’Adobe, la valeur de l’élément est enregistrement :

    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa index.cfm?event=marketplace.home&marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&marketplaceid=1"><metadata> <meta name="mp_mkt" content="1"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_air.png?lang=fr"/> <meta name="title" content="Adobe AIR Marketplace"/> <meta name="description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_photoshop.png?lang=fr"/> <meta name="title" content="Adobe Photoshop Marketplace"/> <meta name="description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>

    Nombre minimum de documents à indexer

    S’il est défini sur une valeur positive, cette valeur indique le nombre minimum d’enregistrements attendus dans le fichier téléchargé. Si moins d’enregistrements sont reçus, l’opération d’index est abandonnée.

    Remarque : Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonctionnalité à utiliser.

    Remarque : Cette fonctionnalité n’est utilisée que lors des opérations d’index complètes.

    Carte

    Permet de spécifier des mappages XML-élément-vers-métadonnées à l’aide d’expressions XPath.

    • Baliser

      Spécifie une représentation XPath des données XML analysées. En utilisant l’exemple de document XML d’Adobe ci-dessus, sous l’option Itemtag, il peut être mappé à l’aide de la syntaxe suivante :

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      La syntaxe ci-dessus se traduit comme suit :

      • /record/@displayurl -> page-url

        L’attribut display de l’élément enregistrement est mappé au champ de métadonnées page-url .

      • /record/metadata/meta[@name='title']/@content -> title

        L'attribut content de tout élément meta contenu à l'intérieur d'un élément de métadonnées contenu à l'intérieur d'un élément d'enregistrement dont l'attribut name est title est associé au champ de métadonnées title <a/>.

      • /record/metadata/meta[@name='description']/@content -> desc

        L'attribut content de tout élément meta contenu à l'intérieur d'un élément metadata contenu à l'intérieur de l'élément record , dont l'attribut name est description est mappé au champ de métadonnées desc <a11111 1/>.

      • /record/metadata/meta[@name='description']/@content -> body

        L'attribut content de tout élément meta contenu dans un élément metadata contenu dans l'élément record , dont l'attribut name est description , est associé au champ de métadonnées corps .

      XPath est une notation relativement compliquée. Vous trouverez plus d’informations à l’emplacement suivant :

      Voir https://www.w3schools.com/xpath/

    • Champ

      Définit la valeur de l’attribut name utilisée pour chaque balise <meta> générée.

    • Métadonnées?

      Le champ devient une liste déroulante à partir de laquelle vous pouvez sélectionner des champs de métadonnées définis pour le compte actif.

      La valeur Champ peut être un champ de métadonnées non défini, si vous le souhaitez. Un champ de métadonnées non défini est parfois utile pour créer du contenu utilisé par Script de filtrage .

      Voir À propos du filtrage des scripts .

      Lorsque Index Connector traite des documents XML avec plusieurs accès sur n’importe quel champ de mappage, les valeurs multiples sont concaténées en une seule valeur dans le document mis en cache résultant. Par défaut, ces valeurs sont combinées à l’aide d’un délimiteur virgule. Cependant, supposons que la valeur de champ correspondante soit un champ de métadonnées défini. En outre, ce champ a l’attribut Listes autorisées . Dans ce cas, la valeur Délimiteurs de liste du champ, qui est le premier délimiteur défini, est utilisée dans la concaténation.

    • Clé primaire?

      Une seule définition de mappage est identifiée en tant que clé Principale. Ce champ devient la référence unique qui est présentée lorsque ce document est ajouté à l’index. Cette valeur est utilisée dans l’URL du document dans l’index.

      Les valeurs Clé Principal doivent être uniques dans tous les documents représentés par la configuration du connecteur d’index. Les doublons rencontrés seront ignorés. Si vos documents source ne contiennent pas de valeur unique unique à utiliser comme clé de Principal , mais que deux ou plusieurs champs combinés peuvent former un identifiant unique, vous pouvez définir la clé de Principal en combinant plusieurs définitions de balise avec une barre verticale ("|) .

    • Bande du code HTML ?

      Lorsque cette option est cochée, toutes les balises HTML figurant dans les données de ce champ sont supprimées.

    • Utiliser comme suppression ?

      Utilisé uniquement pendant les opérations Index incrémentiel. Les enregistrements correspondant à ce modèle XPath identifient les éléments à supprimer. La valeur Clé Principal de chaque enregistrement de ce type est utilisée pour construire des requêtes de suppression, comme avec Delete File Path.

      Remarque : Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonctionnalité à utiliser.

    • Action

      Permet d’ajouter des lignes à la carte ou de supprimer des lignes de la carte. L’ordre des lignes n’est pas important.

    Type de source de données : XML

    Activé

    Active la configuration pour analyser et indexer. Vous pouvez également désactiver la configuration pour empêcher l’analyse et l’indexation.

    Remarque : Les configurations du connecteur d’index désactivées sont ignorées si elles se trouvent dans une liste de points d’entrée.

    Adresse de l’hôte

    Indique l’adresse URL du système hôte sur lequel le fichier de source de données est trouvé.

    Chemin du fichier

    Spécifie le chemin d’accès au document XML Principal contenant des liens ( <a> ) à des documents XML individuels.

    Le chemin d’accès est relatif à la racine de l’adresse hôte.

    Protocole

    Indique le protocole utilisé pour accéder au fichier. Vous pouvez choisir parmi les options suivantes :

    • HTTP

      Si nécessaire, vous pouvez saisir des informations d’identification d’authentification appropriées pour accéder au serveur HTTP.

    • HTTPS

      Si nécessaire, vous pouvez saisir les informations d’identification d’authentification appropriées pour accéder au serveur HTTPS.

    • FTP

      Vous devez saisir les informations d’identification d’authentification appropriées pour accéder au serveur FTP.

    • SFTP

      Vous devez saisir les informations d’identification d’authentification appropriées pour accéder au serveur SFTP.

    • Fichier

    Remarque : Le paramètre Protocole n’est utilisé que lorsque des informations sont spécifiées dans les champs Adresse de l’hôte et/ou Chemin du fichier . Les documents XML individuels sont téléchargés à l’aide de HTTP ou HTTPS, selon leurs spécifications d’URL.

    Itemtag

    Identifie l’élément XML qui définit une "ligne" dans le fichier de source de données que vous avez spécifié.

    Carte

    Permet de définir des mappages colonne/métadonnées à l’aide des numéros de colonne.

    • Baliser

      Spécifie une représentation XPath des données XML analysées. À l’aide de l’exemple de document XML d’Adobe ci-dessus, sous l’option Itemtag, vous pouvez le mapper à l’aide de la syntaxe suivante :

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      La syntaxe ci-dessus se traduit comme suit :

      • /record/@displayurl -> page-url

        L’attribut display de l’élément enregistrement est mappé au champ de métadonnées page-url .

      • /record/metadata/meta[@name='title']/@content -> title

        L'attribut content de tout élément meta contenu à l'intérieur d'un élément de métadonnées contenu à l'intérieur d'un élément d'enregistrement dont l'attribut name est title est associé au champ de métadonnées title <a/>.

      • /record/metadata/meta[@name='description']/@content -> desc

        L'attribut content de tout élément meta contenu à l'intérieur d'un élément metadata contenu à l'intérieur de l'élément record , dont l'attribut name est description est mappé au champ de métadonnées desc <a11111 1/>.

      • /record/metadata/meta[@name='description']/@content -> body

        L'attribut content de tout élément meta contenu dans un élément metadata contenu dans l'élément record , dont l'attribut name est description , est associé au champ de métadonnées corps .

      XPath est une notation relativement compliquée. Vous trouverez plus d’informations à l’emplacement suivant :

      Voir https://www.w3schools.com/xpath/

    • Champ

      Définit la valeur de l’attribut name utilisée pour chaque balise <meta> générée.

    • Métadonnées?

      Le champ devient une liste déroulante à partir de laquelle vous pouvez sélectionner des champs de métadonnées définis pour le compte actif.

      La valeur Champ peut être un champ de métadonnées non défini, si vous le souhaitez. Un champ de métadonnées non défini est parfois utile pour créer du contenu utilisé par Script de filtrage .

      Voir À propos du filtrage des scripts .

      Lorsque Index Connector traite des documents XML avec plusieurs accès sur n’importe quel champ de mappage, les valeurs multiples sont concaténées en une seule valeur dans le document mis en cache résultant. Par défaut, ces valeurs sont combinées à l’aide d’un délimiteur virgule. Cependant, supposons que la valeur de champ correspondante soit un champ de métadonnées défini. En outre, ce champ a l’attribut Listes autorisées . Dans ce cas, la valeur Délimiteurs de liste du champ, qui est le premier délimiteur défini, est utilisée dans la concaténation.

    • Clé primaire?

      Une seule définition de mappage est identifiée en tant que clé Principale. Ce champ devient la référence unique qui est présentée lorsque ce document est ajouté à l’index. Cette valeur est utilisée dans l’URL du document dans l’index.

      Les valeurs Clé Principal doivent être uniques dans tous les documents représentés par la configuration du connecteur d’index. Les doublons rencontrés seront ignorés. Si vos documents source ne contiennent pas de valeur unique unique à utiliser comme clé de Principal , mais que deux ou plusieurs champs combinés peuvent former un identifiant unique, vous pouvez définir la clé de Principal en combinant plusieurs définitions de balise avec une barre verticale ("|) .

    • Bande du code HTML ?

      Lorsque cette option est cochée, toutes les balises HTML figurant dans les données de ce champ sont supprimées.

    • Action

      Permet d’ajouter des lignes à la carte ou de supprimer des lignes de la carte. L’ordre des lignes n’est pas important.

  4. (Facultatif) Cliquez sur Setup Maps pour télécharger un exemple de votre source de données. Les données sont examinées pour déterminer l’adéquation de l’indexation. Cette fonctionnalité est disponible uniquement pour les types de texte et de flux.

  5. (Facultatif) Cliquez sur Preview pour tester le fonctionnement réel de la configuration. Cette fonctionnalité est disponible uniquement pour les types de texte et de flux.

  6. Cliquez sur Add pour ajouter la configuration à la page Index Connector Definitions et à la liste déroulante Index Connector Configurations de la page URL Entrypoints.

    Voir À propos des points d’entrée d’URL.

  7. Sur la page Index Connector Definitions, cliquez sur rebuild your staged site index.

  8. (Facultatif) Sur la page Index Connector Definitions, effectuez l’une des opérations suivantes :

Modification d’une définition de connecteur d’index

Vous pouvez modifier un connecteur d’index que vous avez défini.

REMARQUE

Toutes les options que vous pouvez modifier ne sont pas disponibles, par exemple Nom du connecteur d’index ou Type dans la liste déroulante Type.

Pour modifier une définition de connecteur d’index

  1. Dans le menu du produit, cliquez sur Settings > Crawling > Index Connector.

  2. Sur la page Index Connector, sous l’en-tête de colonne Actions, cliquez sur Edit pour un nom de définition du connecteur d’index dont vous souhaitez modifier les paramètres.

  3. Sur la page Index Connector Edit, définissez les options de votre choix.

    Consultez le tableau des options sous Ajout d’une définition de connecteur d’index.

  4. Cliquez sur Save Changes.

  5. (Facultatif) Sur la page Index Connector Definitions, cliquez sur rebuild your staged site index.

  6. (Facultatif) Sur la page Index Connector Definitions, effectuez l’une des opérations suivantes :

Affichage des paramètres d’une définition de connecteur d’index

Vous pouvez consulter les paramètres de configuration d’une définition de connecteur d’index existante.

Une fois qu’une définition de connecteur d’index a été ajoutée à la page Index Connector Definitions, vous ne pouvez pas modifier son paramètre Type . Vous devez plutôt supprimer la définition, puis en ajouter une nouvelle.

Pour afficher les paramètres d’une définition de connecteur d’index

  1. Dans le menu du produit, cliquez sur Settings > Crawling > Index Connector.
  2. Sur la page Index Connector, sous l’en-tête de colonne Actions, cliquez sur Edit pour un nom de définition du connecteur d’index dont vous souhaitez modifier les paramètres.

Copie d’une définition de connecteur d’index

Vous pouvez copier une définition de connecteur d’index existante à utiliser comme base pour un nouveau connecteur d’index que vous souhaitez créer.

Lors de la copie d’une définition Connecteur d’index, la définition copiée est désactivée par défaut. Pour activer ou "activer" la définition, vous devez la modifier à partir de la page Index Connector Edit et sélectionner Enable.

Voir Modification d’une définition de connecteur d’index.

Pour copier une définition de connecteur d’index

  1. Dans le menu du produit, cliquez sur Settings > Crawling > Index Connector.

  2. Sur la page Index Connector, sous l’en-tête de colonne Actions, cliquez sur Copy pour un nom de définition du connecteur d’index dont vous souhaitez dupliquer les paramètres.

  3. Sur la page Index Connector Copy, saisissez le nouveau nom de la définition.

  4. Cliquez sur Copy.

  5. (Facultatif) Sur la page Index Connector Definitions, effectuez l’une des opérations suivantes :

Renommer une définition de connecteur d’index

Vous pouvez modifier le nom d’une définition de connecteur d’index existante.

Après avoir renommé la définition, cochez Settings > Crawling > URL Entrypoints. Vous souhaitez vous assurer que le nouveau nom de définition est reflété dans la liste déroulante de la page URL Entrypoints.

Voir Ajout de plusieurs points d’entrée d’URL que vous souhaitez indexer.

Pour renommer une définition de connecteur d’index

  1. Dans le menu du produit, cliquez sur Settings > Crawling > Index Connector.

  2. Sur la page Index Connector, sous l’en-tête de colonne Actions, cliquez sur Rename pour le nom de définition du connecteur d’index que vous souhaitez modifier.

  3. Sur la page Index Connector Rename , saisissez le nouveau nom de la définition dans le champ Name .

  4. Cliquez sur Rename.

  5. Cliquez sur Settings > Crawling > URL Entrypoints. Si le nom du connecteur d’index précédent figure dans la liste, supprimez-le et ajoutez l’entrée nouvellement renommée.

    Voir Ajout de plusieurs points d’entrée d’URL que vous souhaitez indexer. 1. (Facultatif) Sur la page Index Connector Definitions, effectuez l’une des opérations suivantes :

Suppression d’une définition de connecteur d’index

Vous pouvez supprimer une définition Connecteur d’index existante dont vous n’avez plus besoin ou que vous n’utilisez plus.

Pour supprimer une définition de connecteur d’index

  1. Dans le menu du produit, cliquez sur Settings > Crawling > Index Connector.
  2. Sur la page Index Connector Definitions, sous l’en-tête de colonne Actions, cliquez sur Delete pour le nom de définition du connecteur d’index à supprimer.
  3. Sur la page Index Connector Delete, cliquez sur Delete.

Sur cette page