Créer un rapport sur le trafic généré par LLM et IA
Cet article de cas d’utilisation explique comment utiliser la fonctionnalité de champs dérivés de Customer Journey Analytics comme base pour créer des rapports sur le trafic LLM (Large Language Model) et généré par l’IA.
Méthodes de détection
Pour détecter le trafic généré par LLM et par l’IA, faites la distinction entre :
- robots LLM : collectez des données pour l’entraînement et la récupération de la génération augmentée (RAG).
- Agents AI : fonctionnent comme des interfaces qui exécutent des tâches au nom de l’homme. Les agents d’IA préfèrent interagir par le biais d’API, qui contournent les méthodes de suivi Web Analytics. Néanmoins, vous pouvez toujours analyser une partie significative du trafic généré par l’IA via les sites web.
Trois méthodes de détection principales courantes pour identifier et surveiller le trafic généré par LLM et par l’IA sont les suivantes :
- Identification de l’agent utilisateur : lorsqu’une requête est envoyée à votre serveur, l’en-tête User-Agent HTTP est extrait et analysé par rapport aux modèles d’agent et de robot d’exploration AI connus. Cette méthode côté serveur nécessite l’accès aux en-têtes HTTP et est plus efficace lorsqu’elle est implémentée au niveau de la couche de collecte de données.
- Classification de référent : l’en-tête référent HTTP contient l’URL de la page web précédente qui pointait vers la requête en cours. Cet en-tête s’affiche lorsque les utilisateurs cliquent sur votre site à partir d’interfaces web telles que ChatGPT ou Perplexity.
- Détection des paramètres de requête : les services d’IA peuvent ajouter des paramètres d’URL (en particulier des paramètres UTM) aux liens. Ces paramètres persistent dans l’URL et peuvent être détectés par le biais d’implémentations d’analyse standard, ce qui rend ces paramètres d’URL des indicateurs précieux même dans les scénarios de suivi côté client.
Le tableau suivant illustre la manière dont les méthodes de détection peuvent être utilisées dans différents scénarios d’interaction LLM et AI.
GPTBot, ClaudeBot, etc.) peut être identifié lors de l’implémentation de la journalisation côté serveur.ChatGPT-User, claude-web) peut être identifié lorsque la journalisation côté serveur capture les en-têtes.OAI-SearchBot, PerplexityBot) peut être identifié à l’aide de la journalisation côté serveur.Les défis
Les agents LLM et AI démontrent des comportements complexes et en évolution lors de l’interaction avec des propriétés numériques. Ces technologies fonctionnent de manière incohérente sur les différentes plateformes et versions. Cette incohérence crée des défis uniques pour les professionnels des données. Les modèles de comportement varient considérablement et dépendent de la plateforme d’IA, de la version et du mode d’interaction spécifiques utilisés. Cette diversité opérationnelle complique les efforts de suivi et de catégorisation du trafic généré par LLM et par l’IA dans les cadres d’analyse standard. La nature complexe de ces interactions, combinée à leur évolution rapide, nécessite des méthodes de détection et de classification nuancées pour maintenir l’intégrité des données :
- Collecte de données partielle : certains agents d’IA plus récents exécutent des JavaScript limitées, ce qui entraîne des données d’analyse incomplètes pour les implémentations côté client. Par conséquent, certaines interactions sont suivies tandis que d’autres sont manquantes.
- Données de session incohérentes : les agents AI peuvent exécuter JavaScript différemment selon les sessions ou les types de page. Cette différence d’exécution crée des parcours utilisateur fragmentés dans Customer Journey Analytics pour les implémentations côté client.
- Défis liés à la détection : avec un suivi partiel, la détection devient non fiable, car certains points de contact peuvent être invisibles pour les analyses.
Signatures de détection
Depuis août 2025, les signaux spécifiques suivants peuvent être identifiés pour chacune des méthodes de détection.
Identification de l'agent utilisateur
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbotMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/botMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/botMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbotMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.comMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)Mozilla/5.0 (compatible; YouBot (+http://www.you.com))Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)Classification de référent
Détection des paramètres de requête
Implémentation
Vous pouvez créer des rapports sur le trafic généré par LLM et par l’IA dans une configuration Customer Journey Analytics standard (connexion, vues de données et projets d’espace de travail) par le biais de la configuration spécifique des champs dérivés, segments et projets d’espace de travail.
Champs dérivés
Pour configurer les méthodes de détection et les signaux de détection, utilisez les champs dérivés comme base. Par exemple, définissez les champs dérivés pour identification de l’agent utilisateur, détection des paramètres de requête et classification du référent.
Identification de l’agent utilisateur LLM/AI
Utilisez les fonctions de champ dérivé Case When pour définir un champ dérivé qui identifie les agents utilisateur LLM/AI.
Détection des paramètres de requête LLM/AI
Utilisez les fonctions de champ dérivé Analyse d’URL et Classifier pour définir un champ dérivé qui détecte les paramètres de requête.
Classification de référent LLM/AI
Utilisez les fonctions de champ dérivé Analyse d’URL et Classifier pour définir un champ dérivé qui classe les référents.
Segments
Configurez des segments dédiés qui vous aident à identifier les événements, sessions ou personnes liés au trafic généré par LLM et IA. Par exemple, utilisez les champs dérivés que vous avez créés précédemment pour définir un segment qui identifie le trafic généré par LLM et par l’IA.
projet Workspace
Utilisez les champs dérivés et les segments pour générer des rapports et des analyses sur le trafic généré par LLM et par l’IA. Par exemple, consultez le projet annoté ci-dessous.