Verslag over het door LLM en AI gegenereerde verkeer
Dit gebruikscase artikel verkent hoe te om het van Customer Journey Analytics afgeleide gebiedsvermogen als stichting te gebruiken om over LM (het Model van de Grote Taal) en AI-Gegenereerd verkeer te rapporteren.
Detectiemethoden
Om LLM en AI geproduceerd verkeer te ontdekken, onderscheid tussen:
- LLM kruipt: Verzamel gegevens voor opleiding en herhaal verhoogde generatie (RAG).
- AI agenten: Functie als interfaces die taak namens mensen uitvoeren. AI-agents werken liever via API's, waardoor de methoden voor het bijhouden van webanalyses worden omzeild. Desalniettemin kunt u een aanzienlijk deel van het door AI gegenereerde verkeer nog steeds analyseren via websites.
Drie gemeenschappelijke kerndetectiemethodes om het door LLM en AI gegenereerde verkeer te identificeren en te controleren zijn:
- de agentenidentificatie van de Gebruiker: Wanneer een verzoek aan uw server wordt gemaakt, wordt de gebruiker-Agent van HTTP kopbal gehaald en tegen bekende AI kruippaden en agentenpatronen geanalyseerd. Deze server-zijmethode vereist toegang tot de kopballen van HTTP en is het meest effectief wanneer uitgevoerd bij de laag van de gegevensinzameling.
- de classificatie van de Verwijzer: De kopbal van de Verwijzing van HTTP bevat URL van vorige webpage die met het huidige verzoek verbonden. Deze header wordt weergegeven wanneer gebruikers via webinterfaces, zoals ChatGPT of Perplexiteit, naar uw site klikken.
- de parameteropsporing van de Vraag: De diensten AI kunnen parameters URL (met name parameters UTM) aan verbindingen toevoegen. Deze parameters blijven in URL bestaan en kunnen door standaard analytische implementaties worden ontdekt, die tot deze parameters URL waardevolle indicatoren zelfs in cliënt-zijvolgende scenario's maken.
In de volgende tabel wordt aangegeven hoe de detectiemethoden kunnen worden gebruikt voor verschillende LLM- en AI-interactiescenario's.
GPTBot
, ClaudeBot
, en meer) kan worden geïdentificeerd wanneer het server-zijregistreren wordt uitgevoerd.ChatGPT-User
, claude-web
) kan worden geïdentificeerd wanneer server-kant registreren kopballen vangt.OAI-SearchBot
, PerplexityBot
) kan met server-zijregistreren worden geïdentificeerd.Uitdagingen
LLM- en AI-agents demonstreren complex en evoluerend gedrag bij het werken met digitale eigenschappen. Deze technologieën werken inconsistent op verschillende platforms en versies. Deze inconsistentie creëert unieke uitdagingen voor gegevensprofessionals. De gedragspatronen variëren aanzienlijk en zijn afhankelijk van het specifieke AI-platform, de versie en de interactiemodus die worden gebruikt. Deze operationele diversiteit bemoeilijkt de inspanningen om het door LLM en AI gegenereerde verkeer te traceren en te categoriseren binnen standaard analytische kaders. De complexe aard van deze interacties, in combinatie met hun snelle evolutie, vereist genuanceerde detectie- en classificatiemethoden om de gegevensintegriteit te handhaven:
- Gedeeltelijke gegevensinzameling: Sommige nieuwere AI agenten voeren beperkte JavaScript uit, resulterend in onvolledige analysegegevens voor cliënt-zijimplementaties. Hierdoor worden sommige interacties bijgehouden terwijl andere interacties worden overgeslagen.
- Inconsistente zittingsgegevens: De agenten AI zouden JavaScript over zittingen of paginatypen verschillend kunnen uitvoeren. Dit uitvoeringsverschil leidt tot gefragmenteerde gebruikersreizen in Customer Journey Analytics voor cliënt-zijimplementaties.
- de uitdagingen van de Opsporing: Met gedeeltelijke het volgen, wordt de opsporing onbetrouwbaar aangezien bepaalde touchpoints aan analyses onzichtbaar zouden kunnen zijn.
Handtekeningen voor detectie
Vanaf augustus 2025 kunnen de volgende specifieke signalen voor elk van de detectiemethoden worden geïdentificeerd.
Identificatie van gebruikersagent
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)
Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)
Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)
Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)
Mozilla/5.0 (compatible; YouBot (+http://www.you.com))
Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)
Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)
Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)
Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)
Rangschikking
Detectie query-parameter
Implementatie
U kunt over LLM en AI-Gegenereerd verkeer binnen een typische opstelling van Customer Journey Analytics ( verbinding , gegevensmeningen , en werkruimteprojecten ) door de specifieke opstelling en de configuratie van afgeleide gebieden , segmenten , en werkruimteprojecten melden.
Afgeleide velden
Om opsporingsmethodes en opsporingssignalen te vormen gebruik afgeleide gebieden als stichting. Bijvoorbeeld, bepaal afgeleide gebieden voor de identificatie van de gebruikersagent , de opsporing van de vraagparameter , en verwijzingsclassificatie .
Identificatie van gebruikersagent voor LLM/AI
Gebruik het Geval wanneer afgeleide gebiedsfuncties om een afgeleid gebied te bepalen dat gebruikersagenten LLM/AI identificeert.
Detectie van LLM-/AI-queryparameters
Gebruik URL ontleedt en classificeer afgeleide gebiedsfuncties om een afgeleid gebied te bepalen dat vraagparameters ontdekt.
LM/AI-referentie-indeling
Gebruik URL ontleedt en classificeer afgeleide gebiedsfuncties om een afgeleid gebied te bepalen dat verwijzingen classificeert.
Segmenten
Stel specifieke segmenten in die u helpen gebeurtenissen, sessies of personen te identificeren die verwant zijn aan het verkeer dat door LLM en AI wordt gegenereerd. Bijvoorbeeld, gebruik de afgeleide gebieden die u eerder creeerde om een segment te bepalen dat LLM en AI-Gegenereerd verkeer identificeert.
Workspace-project
Gebruik de afgeleide gebieden en de segmenten om op LLM en af te lezen verkeer te rapporteren en te analyseren. Zie bijvoorbeeld het onderstaande geannoteerde project.