Rapport om trafik som genererats av LLM och AI

I den här artikeln beskrivs hur du använder funktionen för Customer Journey Analytics-härledda fält som grund för att rapportera om trafik som genererats av LLM (Large Language Model) och AI.

NOTE
Hur effektiva identifieringsmetoderna, identifieringssignaturer och implementeringsstrategier är beror på din datainsamlingsmetod, Experience Platform datamängdstäckning och Customer Journey Analytics-implementering. Resultaten kan variera beroende på din tekniska miljö, datastyrningspolicy och implementeringsstrategi. När du använder Experience Edge måste du välja mellan att spela in strängen för råanvändaragenten eller att samla in enhetsinformation.

Detektionsmetoder

För att upptäcka LLM och AI-genererad trafik ska man skilja mellan

  • LLM-crawler: Samla in data för utbildning och hämtning av utökad generering (RAG).
  • AI-agenter: Funktion som gränssnitt som utför åtgärder åt människor. AI-agenter föredrar att interagera via API:er, som åsidosätter spårningsmetoder för webbanalyser. Du kan ändå analysera en stor del av den AI-genererade trafiken via webbplatser.

Tre vanliga metoder för identifiering och övervakning av LLM- och AI-genererad trafik är:

  • Identifiering av användaragent: När en begäran görs till servern extraheras HTTP-huvudet för användaragent och analyseras mot kända AI-crawler och agentmönster. Den här metoden på serversidan kräver åtkomst till HTTP-huvuden och är mest effektiv när den implementeras på datainsamlingsskiktet.
  • Referensklassificering: HTTP-referensrubriken innehåller URL:en för den föregående webbsidan som länkade till den aktuella begäran. Det här sidhuvudet visar när användare klickar igenom till din webbplats från webbgränssnitt som ChatGPT eller Perplexity.
  • Identifiering av frågeparametrar: AI-tjänster kan lägga till URL-parametrar (särskilt UTM-parametrar) till länkar. Dessa parametrar finns kvar i URL:en och kan identifieras med standardanalysimplementeringar, vilket gör URL-parametrarna värdefulla indikatorer även i spårningsscenarier på klientsidan.

Följande tabell visar hur detekteringsmetoderna kan användas i olika interaktionsscenarier för LLM och AI.

Scenario
Identifiering av användaragent
Referensklassificering
Identifiering av frågeparametrar
Utbildning av modell
Agenten (GPTBot, ClaudeBot och mer) kan identifieras när loggning på serversidan implementeras.
Ingen klassificering är möjlig. AI-crawler genererar inte referenser under utbildning.
Det är omöjligt att upptäcka. AI-crawler lägger inte till parametrar under utbildning.
Bläddrar bland agenter
Agenten (ChatGPT-User, claude-web) kan identifieras när loggning på serversidan hämtar rubriker.
Klassificering är möjlig om agenten navigerar från ett AI-gränssnitt med bevarad referens.
Det går ibland att identifiera om AI-tjänsten lägger till spårningsparametrar.
Hämta utökad generering (RAG) för att svara på frågan
Agenten (OAI-SearchBot, PerplexityBot) kan identifieras med loggning på serversidan.
Normalt är ingen klassificering möjlig eftersom RAG-åtgärder ofta åsidosätter referensmekanismer.
Detektion är sällan möjlig om inte AI-leverantören specifikt har implementerat den.
Användaren klickar igenom
Agenten kan inte identifieras. AI-agenten visas som en vanlig användaragent.
Klassificering är möjlig när användare klickar på länkar från AI-gränssnitt (chatgpt.com, claude.ai med flera).
Identifiering är möjlig när AI-tjänster lägger till UTM-parametrar till utgående länkar.
Visningsvillkor för trafik
Kräv loggningsintegrering på serversidan med Customer Journey Analytics eller taggning på serversidan för agentidentifiering.
Klassificeringen beror på AI-plattformens referensprinciper och korrekt HTTP-huvudöverföring.
Identifiering kräver parameterbevarande genom omdirigeringar och korrekt URL-parametersamling.

Utmaningar

LLM- och AI-agenter visar komplexa och föränderliga beteenden när de interagerar med digitala egenskaper. Dessa tekniker fungerar inkonsekvent på olika plattformar och versioner. Denna inkonsekvens skapar unika utmaningar för dataproffs. Beteendemönstren varierar avsevärt och beror på vilken AI-plattform, version och vilket interaktionsläge som används. Denna operativa mångfald komplicerar arbetet med att spåra och kategorisera trafik som genereras av LLM och AI inom standardanalysramverk. Den komplexa karaktären hos dessa interaktioner, i kombination med deras snabba utveckling, kräver nya detekterings- och klassificeringsmetoder för att upprätthålla dataintegriteten:

  • Delvis datainsamling: Vissa nyare AI-agenter kör begränsade JavaScript, vilket resulterar i ofullständiga analysdata för implementeringar på klientsidan. Därför spåras vissa interaktioner medan andra interaktioner saknas.
  • Inkonsekventa sessionsdata: AI-agenter kan köra JavaScript på olika sätt i sessioner och sidtyper. Denna skillnad skapar fragmenterade användarresor i Customer Journey Analytics för implementeringar på klientsidan.
  • Identifieringsproblem: Med partiell spårning blir identifieringen otillförlitlig eftersom vissa kontaktytor kan vara osynliga för analys.

Identifieringssignaturer

Från och med augusti 2025 kan följande specifika signaler identifieras för var och en av detekteringsmetoderna.

Identifiering av användaragent

Crawler
Användaragentsträng
Syfte/beteende
GPTBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
OpenAI:s primära crawler för utbildning av ChatGPT och språkmodeller
ChatGPT-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Används när ChatGPT bläddrar bland webbplatser åt användare (äldre)
ChatGPT-User v2
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot
ChatGPT:s uppdaterade version för hämtning på begäran och uppslag i svar
OAI-SearchBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
ChatGPT:s sökfokuserade crawler för att hitta innehåll
ClaudeBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com
Anthropic's crawler för utbildning och uppdatering av Claude AI Assist
Claude-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
Stöder Claude AI-användare när enskilda ställer frågor till Claude, kan de komma åt webbplatser med en Cl...
Claude-SearchBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)
Navigerar på webben för att förbättra sökresultatskvaliteten för Claude AI-användare genom att analysera onlineinnehåll...
PerplexityBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Perplexity.ai's crawler för webbindexering i realtid
Perplexity-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)
Läser in sidor när användare klickar på Perplexitetcitationer (bypass robots.txt)
Google-Extended
Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)
Google AI-fokuserade crawler för Gemini är åtskild från Googlebot-standard
BingBot
Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)
Microsoft crawler som driver Bing Search and Bing Chat (Copilot)
DuckAssistBot
Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)
Klipper innehåll för DuckAssist, DuckDuckGo privata AI-svarsfunktion
YouBot
Mozilla/5.0 (compatible; YouBot (+http://www.you.com))
Crawler bakom You.coms AI-sökning och webbläsarassistent
meta-externalagent
Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))
Meta robot för datainsamling till utbildning eller finjustering av LLM
Amazonbot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Amazon crawler för sök- och AI-program
Applebot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Apple crawler för Spotlight, Siri och Safari
Applebot-Extended
Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)
Apple AI-fokuserade crawler för framtida AI-modeller (anmälan)
Bytespider
Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)
ByteDance's AI datainsamlare för TikTok och andra tjänster
MistralAI-användare
Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)
Mistrals realtidsklocka för assistenten Le Chat
cohere-ai
Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)
Samlar in textdata för Cohär språkmodeller

Referensklassificering

Källa
Referent
Trafiktyp
ChatGPT
chatgpt.com
Direkttrafik från ChatGPT-gränssnittet
Claude
claude.ai
Trafik från Anthropics Claude-gränssnitt
Google Gemini
gemini.google.com
Trafik från Google AI-assistent
Microsoft Copilot
copilot.microsoft.com
Trafik från Microsoft AI-assistent
Microsoft Copilot
m365.cloud.microsoft
Trafik från Microsoft AI-assistent (molntjänster i Microsoft 365)
Perplexitet AI
perplexity.ai
Trafik från AI-sökning med citat
Meta AI
meta.ai
Trafik från Meta AI-assistent

Identifiering av frågeparametrar

LLM-tjänst
Exempel-URL
Frågeparameter
Exempelvärde
ChatGPT
https://www.yoursite.com/product?utm_source=chatgpt.com
utm_source
chatgpt.com
Perplexitet
https://www.yoursite.com/article?utm_source=perplexity
utm_source
perplexitet

Implementering

Du kan rapportera om LLM- och AI-genererad trafik i en typisk Customer Journey Analytics-konfiguration (anslutning, datavyer och arbetsyteprojekt) genom att konfigurera och konfigurera härledda fält, segment och arbetsyteprojekt .

Härledda fält

Om du vill konfigurera identifieringsmetoder och identifieringssignaler använder du härledda fält som grund. Definiera till exempel härledda fält för identifiering av användaragent, identifiering av frågeparametrar och klassificering av referent.

Identifiering av användaragent för LLM/AI

Använd de härledda fältsfunktionerna Fall när för att definiera ett härlett fält som identifierar LLM/AI-användaragenter.

Identifiering av LLM/AI-användaragent {modal="regular"}

Identifiering av frågeparametrar för LLM/AI

Använd de härledda fältsfunktionerna URL Parse och Classify för att definiera ett härlett fält som identifierar frågeparametrar.

Identifiering av LLM/AI UTM-parameter {modal="regular"}

Klassificering av LLM/AI-referens

Använd de härledda fältsfunktionerna URL Parse och Classify för att definiera ett härlett fält som klassificerar referenser.

LLM/AI-referensklassificering {modal="regular"}

Segment

Skapa dedikerade segment som hjälper dig att identifiera händelser, sessioner eller personer som relaterar till LLM och AI-genererad trafik. Använd till exempel de härledda fälten som du skapade tidigare för att definiera ett segment som identifierar LLM- och AI-genererad trafik.

LLM och AI-genererat trafiksegment {modal="regular"}

Workspace-projekt

Använd de härledda fälten och segmenten för att rapportera och analysera om trafik som genereras av LLM och AI. Se till exempel det kommenterade projektet nedan.

LLM- och AI-genererad trafik i Workspace-projekt {modal="regular"}

recommendation-more-help
080e5213-7aa2-40d6-9dba-18945e892f79