Créer un rapport sur le trafic généré par LLM et IA

Cet article de cas d’utilisation explique comment utiliser la fonctionnalité de champs dérivés de Customer Journey Analytics comme base pour créer des rapports sur le trafic LLM (Large Language Model) et généré par l’IA.

NOTE
L’efficacité des méthodes de détection, signatures de détection et stratégies d’implémentation dépend de votre méthode de collecte de données spécifique, de la couverture du jeu de données Experience Platform et de l’implémentation de Customer Journey Analytics. Les résultats peuvent varier en fonction de votre environnement technique, des politiques de gouvernance des données et de votre approche de mise en œuvre. Lors de l’utilisation d’Experience Edge, vous devez choisir entre enregistrer la chaîne brute de l’agent utilisateur ou collecter des informations sur l’appareil.

Méthodes de détection

Pour détecter le trafic généré par LLM et par l’IA, faites la distinction entre :

  • robots LLM : collectez des données pour l’entraînement et la récupération de la génération augmentée (RAG).
  • Agents AI : fonctionnent comme des interfaces qui exécutent des tâches au nom de l’homme. Les agents d’IA préfèrent interagir par le biais d’API, qui contournent les méthodes de suivi Web Analytics. Néanmoins, vous pouvez toujours analyser une partie significative du trafic généré par l’IA via les sites web.

Trois méthodes de détection principales courantes pour identifier et surveiller le trafic généré par LLM et par l’IA sont les suivantes :

  • Identification de l’agent utilisateur : lorsqu’une requête est envoyée à votre serveur, l’en-tête User-Agent HTTP est extrait et analysé par rapport aux modèles d’agent et de robot d’exploration AI connus. Cette méthode côté serveur nécessite l’accès aux en-têtes HTTP et est plus efficace lorsqu’elle est implémentée au niveau de la couche de collecte de données.
  • Classification de référent : l’en-tête référent HTTP contient l’URL de la page web précédente qui pointait vers la requête en cours. Cet en-tête s’affiche lorsque les utilisateurs cliquent sur votre site à partir d’interfaces web telles que ChatGPT ou Perplexity.
  • Détection des paramètres de requête : les services d’IA peuvent ajouter des paramètres d’URL (en particulier des paramètres UTM) aux liens. Ces paramètres persistent dans l’URL et peuvent être détectés par le biais d’implémentations d’analyse standard, ce qui rend ces paramètres d’URL des indicateurs précieux même dans les scénarios de suivi côté client.

Le tableau suivant illustre la manière dont les méthodes de détection peuvent être utilisées dans différents scénarios d’interaction LLM et AI.

Scénario
Identification de l'agent utilisateur
Classification de référent
Détection des paramètres de requête
Formation d'un modèle
L’agent (GPTBot, ClaudeBot, etc.) peut être identifié lors de l’implémentation de la journalisation côté serveur.
Aucune classification n’est possible. Les robots d’exploration AI ne génèrent pas de référents pendant la formation.
La détection est impossible. Les robots d’exploration AI n’ajoutent pas de paramètres pendant l’entraînement.
Navigation de l’agent
L’agent (ChatGPT-User, claude-web) peut être identifié lorsque la journalisation côté serveur capture les en-têtes.
La classification est possible si l’agent navigue depuis une interface d’IA avec la conservation des référents.
La détection est parfois possible si le service d’IA ajoute des paramètres de tracking.
Récupération de la génération augmentée (RAG) pour répondre à la requête
L’agent (OAI-SearchBot, PerplexityBot) peut être identifié à l’aide de la journalisation côté serveur.
Aucune classification n’est généralement possible, car les opérations RAG contournent souvent les mécanismes référents.
La détection est rarement possible, sauf si elle est spécifiquement mise en œuvre par le fournisseur d’IA.
L’utilisateur clique jusqu’au
L’agent ne peut pas être identifié. L’agent AI apparaît comme un agent utilisateur normal.
La classification est possible lorsque les utilisateurs cliquent sur des liens à partir des interfaces d’IA (chatgpt.com, claude.ai, etc.).
La détection est possible lorsque les services d’IA ajoutent des paramètres UTM aux liens sortants.
Conditions de visibilité du trafic
Nécessite une intégration de journalisation côté serveur avec Customer Journey Analytics ou le balisage côté serveur pour l’identification de l’agent.
La classification dépend des politiques de référent de la plateforme AI et de la transmission correcte des en-têtes HTTP.
La détection nécessite la conservation des paramètres par le biais de redirections et la collecte appropriée des paramètres d’URL.

Les défis

Les agents LLM et AI démontrent des comportements complexes et en évolution lors de l’interaction avec des propriétés numériques. Ces technologies fonctionnent de manière incohérente sur les différentes plateformes et versions. Cette incohérence crée des défis uniques pour les professionnels des données. Les modèles de comportement varient considérablement et dépendent de la plateforme d’IA, de la version et du mode d’interaction spécifiques utilisés. Cette diversité opérationnelle complique les efforts de suivi et de catégorisation du trafic généré par LLM et par l’IA dans les cadres d’analyse standard. La nature complexe de ces interactions, combinée à leur évolution rapide, nécessite des méthodes de détection et de classification nuancées pour maintenir l’intégrité des données :

  • Collecte de données partielle : certains agents d’IA plus récents exécutent des JavaScript limitées, ce qui entraîne des données d’analyse incomplètes pour les implémentations côté client. Par conséquent, certaines interactions sont suivies tandis que d’autres sont manquantes.
  • Données de session incohérentes : les agents AI peuvent exécuter JavaScript différemment selon les sessions ou les types de page. Cette différence d’exécution crée des parcours utilisateur fragmentés dans Customer Journey Analytics pour les implémentations côté client.
  • Défis liés à la détection : avec un suivi partiel, la détection devient non fiable, car certains points de contact peuvent être invisibles pour les analyses.

Signatures de détection

Depuis août 2025, les signaux spécifiques suivants peuvent être identifiés pour chacune des méthodes de détection.

Identification de l'agent utilisateur

Crawler
Chaîne de l’agent utilisateur
Objectif/Comportement
GPTBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
Robot d’exploration web principal d’OpenAI pour la formation au ChatGPT et aux modèles de langue
ChatGPT-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Utilisé lorsque ChatGPT navigue sur des sites Web pour le compte d'utilisateurs (hérité)
ChatGPT-User v2
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot
Version mise à jour de ChatGPT pour la récupération à la demande et les recherches en réponse
OAI-SearchBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
L'explorateur de recherche de ChatGPT pour découvrir du contenu
ClaudeBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com
Robot d'Anthropic pour la formation et la mise à jour de l'assistant Claude AI
Claude-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
Prend en charge les utilisateurs de Claude AI lorsque des individus posent des questions à Claude, il peut accéder aux sites web en utilisant un...
Claude-SearchBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)
Naviguer sur le web pour améliorer la qualité des résultats de recherche pour les utilisateurs de Claude AI en analysant le contenu en ligne...
PerplexityBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Explorateur Perplexity.ai pour l’indexation des données web en temps réel
Perplexity-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)
Charge les pages quand les utilisateurs cliquent sur Citations de complexité (contourne robots.txt)
Google-Extended
Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)
Robot de recherche centré sur l’IA pour Google pour Gemini distinct de Google standard
BingBot
Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)
Robot de recherche Microsoft alimentant la recherche Bing et le chat Bing (copilote)
DuckAssistBot
Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)
Récupère le contenu pour DuckAssist, la fonctionnalité de réponse d'IA privée de DuckDuckGo
YouBot
Mozilla/5.0 (compatible; YouBot (+http://www.you.com))
Explorateur derrière l’assistant de recherche et de navigateur d’IA de You.com
meta-externalagent
Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))
Robot de Meta pour la collecte de données pour entraîner ou affiner les LLM
Amazonbot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Explorateur Amazon pour les applications de recherche et d’IA
Applebot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Robot d’exploration Apple pour Spotlight, Siri et Safari
Applebot-Extended
Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)
Robot d’exploration axé sur l’IA d’Apple pour les futurs modèles d’IA (opt-in)
Bytespider
Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)
Le collecteur de données IA de ByteDance pour TikTok et d’autres services
MistralAI-User
Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)
Récupérateur de citations en temps réel de Mistral pour l'assistant « Le Chat »
cohere-ai
Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)
Collecte des données textuelles pour les modèles de langue de Cohere

Classification de référent

Source
Référent
Type de trafic
ChatGPT
chatgpt.com
Trafic direct depuis l’interface ChatGPT
Claude
claude.ai
Trafic provenant de l'interface Claude d'Anthropic
Google Gemini
gemini.google.com
Trafic provenant de l’assistant d’IA Google
Copilote Microsoft
copilot.microsoft.com
Trafic provenant de l’assistant d’IA Microsoft
Copilote Microsoft
m365.cloud.microsoft
Trafic provenant de l’assistant d’IA Microsoft (services cloud Microsoft 365)
Perplexity AI
perplexity.ai
Trafic provenant de la recherche par l’IA avec des citations
META AI
meta.ai
Trafic provenant de l’assistant d’IA Meta

Détection des paramètres de requête

Service LLM
Exemple d’URL
Paramètre de requête
Exemple de valeur
ChatGPT
https://www.yoursite.com/product?utm_source=chatgpt.com
utm_source
chatgpt.com
Perplexité
https://www.yoursite.com/article?utm_source=perplexity
utm_source
perplexité

Implémentation

Vous pouvez créer des rapports sur le trafic généré par LLM et par l’IA dans une configuration Customer Journey Analytics standard (connexion, vues de données et projets d’espace de travail) par le biais de la configuration spécifique des champs dérivés, segments et projets d’espace de travail.

Champs dérivés

Pour configurer les méthodes de détection et les signaux de détection, utilisez les champs dérivés comme base. Par exemple, définissez les champs dérivés pour identification de l’agent utilisateur, détection des paramètres de requête et classification du référent.

Identification de l’agent utilisateur LLM/AI

Utilisez les fonctions de champ dérivé Case When pour définir un champ dérivé qui identifie les agents utilisateur LLM/AI.

​ Identification de l’agent utilisateur LLM/AI ​ {modal="regular"}

Détection des paramètres de requête LLM/AI

Utilisez les fonctions de champ dérivé Analyse d’URL et Classifier pour définir un champ dérivé qui détecte les paramètres de requête.

Détection des paramètres UTM LLM/AI {modal="regular"}

Classification de référent LLM/AI

Utilisez les fonctions de champ dérivé Analyse d’URL et Classifier pour définir un champ dérivé qui classe les référents.

Classification de référent LLM/AI {modal="regular"}

Segments

Configurez des segments dédiés qui vous aident à identifier les événements, sessions ou personnes liés au trafic généré par LLM et IA. Par exemple, utilisez les champs dérivés que vous avez créés précédemment pour définir un segment qui identifie le trafic généré par LLM et par l’IA.

Segment de trafic généré par LLM et AI {modal="regular"}

projet Workspace

Utilisez les champs dérivés et les segments pour générer des rapports et des analyses sur le trafic généré par LLM et par l’IA. Par exemple, consultez le projet annoté ci-dessous.

​ Projet de Workspace du trafic généré par LLM et l’IA ​ {modal="regular"}

recommendation-more-help
080e5213-7aa2-40d6-9dba-18945e892f79