Documentation Customer Journey Analytics Guide de Customer Journey Analytics

Créer un rapport sur le trafic généré par LLM et IA

Last update: Tue Dec 02 2025 00:00:00 GMT+0000 (Coordinated Universal Time)

Rubriques :

Créé pour :

Utilisateur ou utilisatrice

Cet article de cas d’utilisation explique comment utiliser la fonctionnalité de champs dérivés de Customer Journey Analytics comme base pour créer des rapports sur le trafic LLM (Large Language Model) et généré par l’IA.

NOTE

L’efficacité des méthodes de détection, signatures de détection et stratégies d’implémentation dépend de votre méthode de collecte de données spécifique, de la couverture du jeu de données Experience Platform et de l’implémentation de Customer Journey Analytics. Les résultats peuvent varier en fonction de votre environnement technique, des politiques de gouvernance des données et de votre approche de mise en œuvre. Lors de l’utilisation d’Experience Edge, vous devez choisir entre enregistrer la chaîne brute de l’agent utilisateur ou collecter des informations sur l’appareil.

Méthodes de détection

Pour détecter le trafic généré par LLM et par l’IA, faites la distinction entre :

robots LLM : collectez des données pour l’entraînement et la récupération de la génération augmentée (RAG).
Agents AI : fonctionnent comme des interfaces qui exécutent des tâches au nom de l’homme. Les agents d’IA préfèrent interagir par le biais d’API, qui contournent les méthodes de suivi Web Analytics. Néanmoins, vous pouvez toujours analyser une partie significative du trafic généré par l’IA via les sites web.

Trois méthodes de détection principales courantes pour identifier et surveiller le trafic généré par LLM et par l’IA sont les suivantes :

Identification de l’agent utilisateur : lorsqu’une requête est envoyée à votre serveur, l’en-tête User-Agent HTTP est extrait et analysé par rapport aux modèles d’agent et de robot d’exploration AI connus. Cette méthode côté serveur nécessite l’accès aux en-têtes HTTP et est plus efficace lorsqu’elle est implémentée au niveau de la couche de collecte de données.
Classification de référent : l’en-tête référent HTTP contient l’URL de la page web précédente qui pointait vers la requête en cours. Cet en-tête s’affiche lorsque les utilisateurs cliquent sur votre site à partir d’interfaces web telles que ChatGPT ou Perplexity.
Détection des paramètres de requête : les services d’IA peuvent ajouter des paramètres d’URL (en particulier des paramètres UTM) aux liens. Ces paramètres persistent dans l’URL et peuvent être détectés par le biais d’implémentations d’analyse standard, ce qui rend ces paramètres d’URL des indicateurs précieux même dans les scénarios de suivi côté client.

Le tableau suivant illustre la manière dont les méthodes de détection peuvent être utilisées dans différents scénarios d’interaction LLM et AI.

Scénario

Identification de l'agent utilisateur

Classification de référent

Détection des paramètres de requête

Formation d'un modèle

L’agent (GPTBot, ClaudeBot, etc.) peut être identifié lors de l’implémentation de la journalisation côté serveur.

Aucune classification n’est possible. Les robots d’exploration AI ne génèrent pas de référents pendant la formation.

La détection est impossible. Les robots d’exploration AI n’ajoutent pas de paramètres pendant l’entraînement.

Navigation de l’agent

L’agent (ChatGPT-User, claude-web) peut être identifié lorsque la journalisation côté serveur capture les en-têtes.

La classification est possible si l’agent navigue depuis une interface d’IA avec la conservation des référents.

La détection est parfois possible si le service d’IA ajoute des paramètres de tracking.

Récupération de la génération augmentée (RAG) pour répondre à la requête

L’agent (OAI-SearchBot, PerplexityBot) peut être identifié à l’aide de la journalisation côté serveur.

Aucune classification n’est généralement possible, car les opérations RAG contournent souvent les mécanismes référents.

La détection est rarement possible, sauf si elle est spécifiquement mise en œuvre par le fournisseur d’IA.

L’utilisateur clique jusqu’au

L’agent ne peut pas être identifié. L’agent AI apparaît comme un agent utilisateur normal.

La classification est possible lorsque les utilisateurs cliquent sur des liens à partir des interfaces d’IA (chatgpt.com, claude.ai, etc.).

La détection est possible lorsque les services d’IA ajoutent des paramètres UTM aux liens sortants.

Conditions de visibilité du trafic

Nécessite une intégration de journalisation côté serveur avec Customer Journey Analytics ou le balisage côté serveur pour l’identification de l’agent.

La classification dépend des politiques de référent de la plateforme AI et de la transmission correcte des en-têtes HTTP.

La détection nécessite la conservation des paramètres par le biais de redirections et la collecte appropriée des paramètres d’URL.

Les défis

Les agents LLM et AI démontrent des comportements complexes et en évolution lors de l’interaction avec des propriétés numériques. Ces technologies fonctionnent de manière incohérente sur les différentes plateformes et versions. Cette incohérence crée des défis uniques pour les professionnels des données. Les modèles de comportement varient considérablement et dépendent de la plateforme d’IA, de la version et du mode d’interaction spécifiques utilisés. Cette diversité opérationnelle complique les efforts de suivi et de catégorisation du trafic généré par LLM et par l’IA dans les cadres d’analyse standard. La nature complexe de ces interactions, combinée à leur évolution rapide, nécessite des méthodes de détection et de classification nuancées pour maintenir l’intégrité des données :

Collecte de données partielle : certains agents d’IA plus récents exécutent des JavaScript limitées, ce qui entraîne des données d’analyse incomplètes pour les implémentations côté client. Par conséquent, certaines interactions sont suivies tandis que d’autres sont manquantes.
Données de session incohérentes : les agents AI peuvent exécuter JavaScript différemment selon les sessions ou les types de page. Cette différence d’exécution crée des parcours utilisateur fragmentés dans Customer Journey Analytics pour les implémentations côté client.
Défis liés à la détection : avec un suivi partiel, la détection devient non fiable, car certains points de contact peuvent être invisibles pour les analyses.

Signatures de détection

Depuis août 2025, les signaux spécifiques suivants peuvent être identifiés pour chacune des méthodes de détection.

Identification de l'agent utilisateur

Crawler

Chaîne de l’agent utilisateur

Objectif/Comportement

GPTBot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot

Robot d’exploration web principal d’OpenAI pour la formation au ChatGPT et aux modèles de langue

ChatGPT-User

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

Utilisé lorsque ChatGPT navigue sur des sites Web pour le compte d'utilisateurs (hérité)

ChatGPT-User v2

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot

Version mise à jour de ChatGPT pour la récupération à la demande et les recherches en réponse

OAI-SearchBot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot

L'explorateur de recherche de ChatGPT pour découvrir du contenu

ClaudeBot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com

Robot d'Anthropic pour la formation et la mise à jour de l'assistant Claude AI

Claude-User

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)

Prend en charge les utilisateurs de Claude AI lorsque des individus posent des questions à Claude, il peut accéder aux sites web en utilisant un...

Claude-SearchBot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)

Naviguer sur le web pour améliorer la qualité des résultats de recherche pour les utilisateurs de Claude AI en analysant le contenu en ligne...

PerplexityBot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)

Explorateur Perplexity.ai pour l’indexation des données web en temps réel

Perplexity-User

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)

Charge les pages quand les utilisateurs cliquent sur Citations de complexité (contourne robots.txt)

Google-Extended

Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)

Robot de recherche centré sur l’IA pour Google pour Gemini distinct de Google standard

BingBot

Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)

Robot de recherche Microsoft alimentant la recherche Bing et le chat Bing (copilote)

DuckAssistBot

Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)

Récupère le contenu pour DuckAssist, la fonctionnalité de réponse d'IA privée de DuckDuckGo

YouBot

Mozilla/5.0 (compatible; YouBot (+http://www.you.com))

Explorateur derrière l’assistant de recherche et de navigateur d’IA de You.com

meta-externalagent

Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))

Robot de Meta pour la collecte de données pour entraîner ou affiner les LLM

Amazonbot

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Explorateur Amazon pour les applications de recherche et d’IA

Applebot

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)

Robot d’exploration Apple pour Spotlight, Siri et Safari

Applebot-Extended

Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)

Robot d’exploration axé sur l’IA d’Apple pour les futurs modèles d’IA (opt-in)

Bytespider

Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)

Le collecteur de données IA de ByteDance pour TikTok et d’autres services

MistralAI-User

Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)

Récupérateur de citations en temps réel de Mistral pour l'assistant « Le Chat »

cohere-ai

Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)

Collecte des données textuelles pour les modèles de langue de Cohere

Classification de référent

Source

Référent

Type de trafic

ChatGPT

chatgpt.com

Trafic direct depuis l’interface ChatGPT

Claude

claude.ai

Trafic provenant de l'interface Claude d'Anthropic

Google Gemini

gemini.google.com

Trafic provenant de l’assistant d’IA Google

Copilote Microsoft

copilot.microsoft.com

Trafic provenant de l’assistant d’IA Microsoft

Copilote Microsoft

m365.cloud.microsoft

Trafic provenant de l’assistant d’IA Microsoft (services cloud Microsoft 365)

Perplexity AI

perplexity.ai

Trafic provenant de la recherche par l’IA avec des citations

META AI

meta.ai

Trafic provenant de l’assistant d’IA Meta

Détection des paramètres de requête

Service LLM

Exemple d’URL

Paramètre de requête

Exemple de valeur

ChatGPT

https://www.yoursite.com/product?utm_source=chatgpt.com

utm_source

chatgpt.com

Perplexité

https://www.yoursite.com/article?utm_source=perplexity

utm_source

perplexité

Implémentation

Vous pouvez créer des rapports sur le trafic généré par LLM et par l’IA dans une configuration Customer Journey Analytics standard (connexion, vues de données et projets d’espace de travail) par le biais de la configuration spécifique des champs dérivés, segments et projets d’espace de travail.

Champs dérivés

Pour configurer les méthodes de détection et les signaux de détection, utilisez les champs dérivés comme base. Par exemple, définissez les champs dérivés pour identification de l’agent utilisateur, détection des paramètres de requête et classification du référent.

Identification de l’agent utilisateur LLM/AI

Utilisez les fonctions de champ dérivé Case When pour définir un champ dérivé qui identifie les agents utilisateur LLM/AI.

Identification de l’agent utilisateur LLM/AI {modal="regular"}

Détection des paramètres de requête LLM/AI

Utilisez les fonctions de champ dérivé Analyse d’URL et Classifier pour définir un champ dérivé qui détecte les paramètres de requête.

Détection des paramètres UTM LLM/AI {modal="regular"}

Classification de référent LLM/AI

Utilisez les fonctions de champ dérivé Analyse d’URL et Classifier pour définir un champ dérivé qui classe les référents.

Classification de référent LLM/AI {modal="regular"}

Segments

Configurez des segments dédiés qui vous aident à identifier les événements, sessions ou personnes liés au trafic généré par LLM et IA. Par exemple, utilisez les champs dérivés que vous avez créés précédemment pour définir un segment qui identifie le trafic généré par LLM et par l’IA.

Segment de trafic généré par LLM et AI {modal="regular"}

projet Workspace

Utilisez les champs dérivés et les segments pour générer des rapports et des analyses sur le trafic généré par LLM et par l’IA. Par exemple, consultez le projet annoté ci-dessous.

Projet de Workspace du trafic généré par LLM et l’IA {modal="regular"}

recommendation-more-help

080e5213-7aa2-40d6-9dba-18945e892f79