Verslag over het door LLM en AI gegenereerde verkeer

Dit gebruikscase artikel verkent hoe te om het van Customer Journey Analytics afgeleide gebiedsvermogen als stichting te gebruiken om over LM (het Model van de Grote Taal) en AI-Gegenereerd verkeer te rapporteren.

NOTE
De doeltreffendheid van de ​ methodes van de ontdekkingsopsporing ​, ​ ontdekkingshandtekeningen ​ en ​ implementatiestrategieën ​ hangt van uw specifieke methode van de gegevensinzameling, de datasetdekking van Experience Platform, en de implementatie van Customer Journey Analytics af. De resultaten kunnen variëren afhankelijk van uw technische omgeving, beleid voor gegevensbeheer en implementatieaanpak. Als u Experience Edge gebruikt, moet u kiezen tussen het opnemen van de onbewerkte user Agent-tekenreeks of het verzamelen van apparaatgegevens.

Detectiemethoden

Om LLM en AI geproduceerd verkeer te ontdekken, onderscheid tussen:

  • LLM kruipt: Verzamel gegevens voor opleiding en herhaal verhoogde generatie (RAG).
  • AI agenten: Functie als interfaces die taak namens mensen uitvoeren. AI-agents werken liever via API's, waardoor de methoden voor het bijhouden van webanalyses worden omzeild. Desalniettemin kunt u een aanzienlijk deel van het door AI gegenereerde verkeer nog steeds analyseren via websites.

Drie gemeenschappelijke kerndetectiemethodes om het door LLM en AI gegenereerde verkeer te identificeren en te controleren zijn:

  • de agentenidentificatie van de Gebruiker: Wanneer een verzoek aan uw server wordt gemaakt, wordt de gebruiker-Agent van HTTP kopbal gehaald en tegen bekende AI kruippaden en agentenpatronen geanalyseerd. Deze server-zijmethode vereist toegang tot de kopballen van HTTP en is het meest effectief wanneer uitgevoerd bij de laag van de gegevensinzameling.
  • de classificatie van de Verwijzer: De kopbal van de Verwijzing van HTTP bevat URL van vorige webpage die met het huidige verzoek verbonden. Deze header wordt weergegeven wanneer gebruikers via webinterfaces, zoals ChatGPT of Perplexiteit, naar uw site klikken.
  • de parameteropsporing van de Vraag: De diensten AI kunnen parameters URL (met name parameters UTM) aan verbindingen toevoegen. Deze parameters blijven in URL bestaan en kunnen door standaard analytische implementaties worden ontdekt, die tot deze parameters URL waardevolle indicatoren zelfs in cliënt-zijvolgende scenario's maken.

In de volgende tabel wordt aangegeven hoe de detectiemethoden kunnen worden gebruikt voor verschillende LLM- en AI-interactiescenario's.

Scenario
Identificatie van gebruikersagent
Rangschikking
Detectie query-parameter
Opleiding van een model
De agent (GPTBot, ClaudeBot, en meer) kan worden geïdentificeerd wanneer het server-zijregistreren wordt uitgevoerd.
Indeling is niet mogelijk. AI-crawlers genereren geen referentie tijdens de training.
Detectie is onmogelijk. AI-crawlers voegen geen parameters toe tijdens de training.
het doorbladeren van de Agent
De agent (ChatGPT-User, claude-web) kan worden geïdentificeerd wanneer server-kant registreren kopballen vangt.
Classificatie is mogelijk als de agent navigeert vanaf een AI-interface met behoud van referenties.
Detectie is soms mogelijk als de AI-service trackingparameters toevoegt.
wint opgewaardeerde generatie (RAG) terug om vraag te beantwoorden
De agent (OAI-SearchBot, PerplexityBot) kan met server-zijregistreren worden geïdentificeerd.
Een classificatie is doorgaans niet mogelijk omdat RAG-bewerkingen vaak de referentiemechanismen omzeilen.
Detectie is zelden mogelijk, tenzij dit specifiek door de AI-provider wordt geïmplementeerd.
de Gebruiker klikt door
De agent kan niet worden geïdentificeerd. AI-agent wordt weergegeven als een normale gebruikersagent.
De classificatie is mogelijk wanneer de gebruikers verbindingen van AI interfaces (​ chatgpt.com ​, ​ claude.ai ​, en meer) klikken.
Detectie is mogelijk wanneer AI-services UTM-parameters toevoegen aan uitgaande koppelingen.
de zichtbaarheidsvoorwaarden van het Verkeer
Integratie van logbestanden aan de serverzijde met Customer Journey Analytics- of serverzijde vereist voor identificatie van de agent.
De classificatie is afhankelijk van het AI-platformverwijzingsbeleid en de juiste HTTP-headeroverdracht.
De opsporing vereist parameterbehoud door omleidingen en juiste URL parameterinzameling.

Uitdagingen

LLM- en AI-agents demonstreren complex en evoluerend gedrag bij het werken met digitale eigenschappen. Deze technologieën werken inconsistent op verschillende platforms en versies. Deze inconsistentie creëert unieke uitdagingen voor gegevensprofessionals. De gedragspatronen variëren aanzienlijk en zijn afhankelijk van het specifieke AI-platform, de versie en de interactiemodus die worden gebruikt. Deze operationele diversiteit bemoeilijkt de inspanningen om het door LLM en AI gegenereerde verkeer te traceren en te categoriseren binnen standaard analytische kaders. De complexe aard van deze interacties, in combinatie met hun snelle evolutie, vereist genuanceerde detectie- en classificatiemethoden om de gegevensintegriteit te handhaven:

  • Gedeeltelijke gegevensinzameling: Sommige nieuwere AI agenten voeren beperkte JavaScript uit, resulterend in onvolledige analysegegevens voor cliënt-zijimplementaties. Hierdoor worden sommige interacties bijgehouden terwijl andere interacties worden overgeslagen.
  • Inconsistente zittingsgegevens: De agenten AI zouden JavaScript over zittingen of paginatypen verschillend kunnen uitvoeren. Dit uitvoeringsverschil leidt tot gefragmenteerde gebruikersreizen in Customer Journey Analytics voor cliënt-zijimplementaties.
  • de uitdagingen van de Opsporing: Met gedeeltelijke het volgen, wordt de opsporing onbetrouwbaar aangezien bepaalde touchpoints aan analyses onzichtbaar zouden kunnen zijn.

Handtekeningen voor detectie

Vanaf augustus 2025 kunnen de volgende specifieke signalen voor elk van de detectiemethoden worden geïdentificeerd.

Identificatie van gebruikersagent

Crawler
Tekenreeks gebruikersagent
Doel/gedrag
GPTBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
De primaire webcrawler van OpenAI voor training in ChatGPT en taalmodellen
ChatGPT-Gebruiker
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Wordt gebruikt wanneer ChatGPT websites bladert namens gebruikers (verouderd)
ChatGPT-User v2
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot
De bijgewerkte versie van ChatGPT voor ophaalbewerkingen op aanvraag en opzoekacties in reactie
OAI-SearchBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
Zoekgerichte zoekfunctie van ChatGPT voor het ontdekken van inhoud
ClaudeBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com
Anthropic's crawler for training and update the Claude AI Assistant
Claude-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
Biedt ondersteuning voor Claude AI-gebruikers die vragen stellen aan Claude, maar heeft wel toegang tot websites met een Cl...
Claude-SearchBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)
Navigeert het Web om de kwaliteit van het onderzoeksresultaat voor gebruikers van Claude AI te verbeteren door online inhoud te analyseren t...
PerplexityBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Perplexity.ai's crawler voor realtime webgegevensindexering
Perplexiteit-gebruiker
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)
Hiermee laadt u pagina's wanneer gebruikers op Perplexiteit-citaten klikken (bypass robots.txt)
Google-Extended
Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)
Google-crawler met AI-focus voor Gemini apart van standaard Googlebot
BingBot
Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)
Microsoft-crawler voor Bing Search and Bing Chat (Kopilot)
DuckAssistBot
Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)
Inhoud vastzetten voor DuckAssist, DuckDuckGo's persoonlijke AI-antwoordfunctie
YouBot
Mozilla/5.0 (compatible; YouBot (+http://www.you.com))
Crawler achter de AI-zoekfunctie en browserassistent van You.com
meta-extern agens
Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))
Meta bot voor het verzamelen van gegevens om LLM's op te leiden of te verfijnen
Amazonbot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Amazon crawler voor zoekopdrachten en AI-toepassingen
Applebot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Apple crawler voor Spotlight, Siri en Safari
Applebot-Extended
Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)
Apple-crawler met AI-focus voor toekomstige AI-modellen (opt-in)
Bytespider
Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)
De AI-gegevensverzamelaar van ByteDance voor TikTok en andere services
MistralAI-gebruiker
Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)
Mistral's real-time aanhalingsteken voor "Le Chat"-assistent
cohere-ai
Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)
Verzamelt tekstuele gegevens voor Cohere-taalmodellen

Rangschikking

Bron
Referenter
Verkeerstype
ChatGPT
chatgpt.com
Directe verkeer van interface ChatGPT
Claude
claude.ai
Verkeer via de Claude-interface van Anthropic
Google Gemini
gemini.google.com
Verkeer van Google AI-assistent
Microsoft Copilot
copilot.microsoft.com
Verkeer van Microsoft AI-assistent
Microsoft Copilot
m365.cloud.microsoft
Verkeer van Microsoft AI-assistent (Microsoft 365-cloudservices)
Ingewikkeld AI
perplexity.ai
Verkeer van AI-zoekopdracht met citaten
META AI
meta.ai
Verkeer van Meta AI-assistent

Detectie query-parameter

LLM-service
Voorbeeld-URL
Query-parameter
Voorbeeldwaarde
ChatGPT
https://www.yoursite.com/product?utm_source=chatgpt.com
utm_source
chatgpt.com
Ingewikkeld
https://www.yoursite.com/article?utm_source=perplexity
utm_source
verbijstering

Implementatie

U kunt over LLM en AI-Gegenereerd verkeer binnen een typische opstelling van Customer Journey Analytics (​ verbinding ​, ​ gegevensmeningen ​, en ​ werkruimteprojecten ​) door de specifieke opstelling en de configuratie van ​ afgeleide gebieden ​, ​ segmenten ​, en ​ werkruimteprojecten ​ melden.

Afgeleide velden

Om opsporingsmethodes en opsporingssignalen te vormen gebruik afgeleide gebieden als stichting. Bijvoorbeeld, bepaal afgeleide gebieden voor ​ de identificatie van de gebruikersagent ​, ​ de opsporing van de vraagparameter ​, en ​ verwijzingsclassificatie ​.

Identificatie van gebruikersagent voor LLM/AI

Gebruik het ​ Geval wanneer ​ afgeleide gebiedsfuncties om een afgeleid gebied te bepalen dat gebruikersagenten LLM/AI identificeert.

​ Identificatie van de Agent van LLM/AI van de Gebruiker ​ {modal="regular"}

Detectie van LLM-/AI-queryparameters

Gebruik ​ URL ontleedt ​ en ​ classificeer ​ afgeleide gebiedsfuncties om een afgeleid gebied te bepalen dat vraagparameters ontdekt.

​ LLM/AI de Detectie van de Parameter UTM ​ {modal="regular"}

LM/AI-referentie-indeling

Gebruik ​ URL ontleedt ​ en ​ classificeer ​ afgeleide gebiedsfuncties om een afgeleid gebied te bepalen dat verwijzingen classificeert.

​ LLM/AI de Classificatie van de Referentie ​ {modal="regular"}

Segmenten

Stel specifieke segmenten in die u helpen gebeurtenissen, sessies of personen te identificeren die verwant zijn aan het verkeer dat door LLM en AI wordt gegenereerd. Bijvoorbeeld, gebruik de afgeleide gebieden die u eerder creeerde om een segment te bepalen dat LLM en AI-Gegenereerd verkeer identificeert.

​ LLM en AI-Gegenereerd verkeerssegment ​ {modal="regular"}

Workspace-project

Gebruik de afgeleide gebieden en de segmenten om op LLM en af te lezen verkeer te rapporteren en te analyseren. Zie bijvoorbeeld het onderstaande geannoteerde project.

​ LLM en het AI-Gegenereerde project van Workspace van het verkeer ​ {modal="regular"}

recommendation-more-help
080e5213-7aa2-40d6-9dba-18945e892f79