Bericht zu LLM und KI-generiertem Traffic
In diesem Anwendungsbeispiel wird untersucht, wie die Funktion „Von Customer Journey Analytics abgeleitete Felder“ als Grundlage für Berichte zu LLM (Large Language Model) und KI-generiertem Traffic verwendet wird.
Nachweismethoden
Um LLM- und KI-generierten Traffic zu erkennen, unterscheiden Sie zwischen:
- LLM-Crawler: Erfassen von Daten für das Training und den Abruf der erweiterten Generierung (RAG).
- AI agents: Funktion als Schnittstellen, die Aufgaben im Namen von Menschen ausführen. KI-Agenten interagieren vorzugsweise über APIs, die Web-Analyse-Tracking-Methoden umgehen. Sie können jedoch weiterhin einen erheblichen Teil des durch KI generierten Traffics über Websites analysieren.
Drei gängige Kernerkennungsmethoden zur Identifizierung und Überwachung von LLM und KI-generiertem Traffic sind:
- Benutzeragenten-Identifizierung: Wenn eine Anfrage an Ihren Server gesendet wird, wird die HTTP-Benutzeragenten-Kopfzeile extrahiert und anhand bekannter KI-Crawler- und Agentenmuster analysiert. Diese Server-seitige Methode erfordert Zugriff auf HTTP-Kopfzeilen und ist am effektivsten, wenn sie auf der Datenerfassungsschicht implementiert wird.
- Referrer-Klassifizierung: Die HTTP-Referrer-Kopfzeile enthält die URL der vorherigen Web-Seite, die mit der aktuellen Anfrage verknüpft ist. Diese Kopfzeile zeigt an, wann Benutzer über Web-Schnittstellen wie ChatGPT oder Perplexity auf Ihre Site klicken.
- Erkennung von Abfrageparametern: KI-Services können URL-Parameter (insbesondere UTM-Parameter) an Links anhängen. Diese Parameter bleiben in der URL erhalten und können über standardmäßige Analytics-Implementierungen erkannt werden, sodass diese URL-Parameter auch in Client-seitigen Tracking-Szenarien wertvolle Indikatoren sind.
Die folgende Tabelle zeigt, wie die Erkennungsmethoden für verschiedene LLM- und AI-Interaktionsszenarien verwendet werden können.
GPTBot
, ClaudeBot
und mehr) können identifiziert werden, wenn die Server-seitige Protokollierung implementiert ist.ChatGPT-User
, claude-web
) kann identifiziert werden, wenn die Server-seitige Protokollierung Kopfzeilen erfasst.OAI-SearchBot
, PerplexityBot
) kann mit Server-seitiger Protokollierung identifiziert werden.Challenges
LLM- und KI-Agenten zeigen bei der Interaktion mit digitalen Eigenschaften komplexe und sich weiterentwickelnde Verhaltensweisen. Diese Technologien arbeiten plattform- und versionsübergreifend inkonsistent. Diese Inkonsistenz stellt Datenexperten vor einzigartige Herausforderungen. Die Verhaltensmuster variieren erheblich und hängen von der jeweiligen KI-Plattform, Version und dem verwendeten Interaktionsmodus ab. Diese betriebliche Vielfalt erschwert das Nachverfolgen und Kategorisieren von LLM- und KI-generiertem Traffic innerhalb standardmäßiger Analyse-Frameworks. Die komplexe Natur dieser Interaktionen in Kombination mit ihrer schnellen Entwicklung erfordert differenzierte Detektions- und Klassifizierungsmethoden, um die Datenintegrität aufrechtzuerhalten:
- Partielle Datenerfassung: Einige neuere KI-Agenten führen eingeschränkte JavaScript aus, was zu unvollständigen Analysedaten für Client-seitige Implementierungen führt. Infolgedessen werden einige Interaktionen verfolgt, während andere Interaktionen übersehen werden.
- Inkonsistente Sitzungsdaten: KI-Agenten führen JavaScript möglicherweise sitzungs- oder seitentypübergreifend unterschiedlich aus. Dieser Ausführungsunterschied führt zu fragmentierten Journey in Customer Journey Analytics für Client-seitige Implementierungen.
- Herausforderungen bei der Erkennung: Bei teilweisem Tracking wird die Erkennung unzuverlässig, da bestimmte Touchpoints für Analytics möglicherweise unsichtbar sind.
Signaturen erkennen
Ab August 2025 können für jede der Nachweismethoden die folgenden spezifischen Signale identifiziert werden.
Benutzeragenten-Identifizierung
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)
Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)
Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)
Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)
Mozilla/5.0 (compatible; YouBot (+http://www.you.com))
Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)
Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)
Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)
Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)
Referrer-Klassifizierung
Abfrageparameter-Erkennung
Implementierung
Sie können in einem typischen Customer Journey Analytics-Setup (Verbindung, Datenansichten und Workspace-Projekte) Berichte zu LLM- und KI-generiertem Traffic erstellen, indem Sie abgeleitete Felder, Segmente und Workspace-Projekte.
Abgeleitete Felder
Für die Konfiguration von Detektionsmethoden und Detektionssignalen werden abgeleitete Felder als Grundlage verwendet. Definieren Sie beispielsweise abgeleitete Felder für Benutzeragenten-Identifizierung, Abfrageparametererkennung und Referrer-Klassifizierung.
LLM/AI-Benutzeragenten-Identifizierung
Verwenden Sie die abgeleiteten Feldfunktionen Wenn, um ein abgeleitetes Feld zu definieren, das LLM/AI-Benutzeragenten identifiziert.
LLM/AI-Abfrageparameter-Erkennung
Verwenden Sie die Funktionen URL-Parsen und Klassifizieren abgeleitete Felder, um ein abgeleitetes Feld zu definieren, das Abfrageparameter erkennt.
LLM/AI Referrer Classification
Verwenden Sie die Funktionen URL-Analyse und Klassifizieren abgeleiteter Felder, um ein abgeleitetes Feld zu definieren, das Referrer klassifiziert.
Segmente
Richten Sie spezielle Segmente ein, mit denen Sie Ereignisse, Sitzungen oder Personen im Zusammenhang mit LLM und KI-generiertem Traffic identifizieren können. Verwenden Sie beispielsweise die abgeleiteten Felder, die Sie zuvor erstellt haben, um ein Segment zu definieren, das den LLM- und den KI-generierten Traffic identifiziert.
Workspace-Projekt
Verwenden Sie die abgeleiteten Felder und Segmente, um Berichte und Analysen zu LLM und KI-generiertem Traffic durchzuführen. Ein Beispiel finden Sie im kommentierten Projekt unten.