Bericht zu LLM und KI-generiertem Traffic

In diesem Anwendungsbeispiel wird untersucht, wie die Funktion „Von Customer Journey Analytics abgeleitete Felder“ als Grundlage für Berichte zu LLM (Large Language Model) und KI-generiertem Traffic verwendet wird.

NOTE
Die Effektivität der Erkennungsmethoden, Erkennungssignaturen und Implementierungsstrategien hängt von Ihrer spezifischen Datenerfassungsmethode, der Abdeckung von Experience Platform-Datensätzen und der Customer Journey Analytics-Implementierung ab. Die Ergebnisse können je nach technischer Umgebung, Data Governance-Richtlinien und Implementierungsansatz variieren. Bei Verwendung von Experience Edge müssen Sie zwischen der Aufzeichnung der unformatierten Benutzeragenten-Zeichenfolge oder der Erfassung von Geräteinformationen wählen.

Nachweismethoden

Um LLM- und KI-generierten Traffic zu erkennen, unterscheiden Sie zwischen:

  • LLM-Crawler: Erfassen von Daten für das Training und den Abruf der erweiterten Generierung (RAG).
  • AI agents: Funktion als Schnittstellen, die Aufgaben im Namen von Menschen ausführen. KI-Agenten interagieren vorzugsweise über APIs, die Web-Analyse-Tracking-Methoden umgehen. Sie können jedoch weiterhin einen erheblichen Teil des durch KI generierten Traffics über Websites analysieren.

Drei gängige Kernerkennungsmethoden zur Identifizierung und Überwachung von LLM und KI-generiertem Traffic sind:

  • Benutzeragenten-Identifizierung: Wenn eine Anfrage an Ihren Server gesendet wird, wird die HTTP-Benutzeragenten-Kopfzeile extrahiert und anhand bekannter KI-Crawler- und Agentenmuster analysiert. Diese Server-seitige Methode erfordert Zugriff auf HTTP-Kopfzeilen und ist am effektivsten, wenn sie auf der Datenerfassungsschicht implementiert wird.
  • Referrer-Klassifizierung: Die HTTP-Referrer-Kopfzeile enthält die URL der vorherigen Web-Seite, die mit der aktuellen Anfrage verknüpft ist. Diese Kopfzeile zeigt an, wann Benutzer über Web-Schnittstellen wie ChatGPT oder Perplexity auf Ihre Site klicken.
  • Erkennung von Abfrageparametern: KI-Services können URL-Parameter (insbesondere UTM-Parameter) an Links anhängen. Diese Parameter bleiben in der URL erhalten und können über standardmäßige Analytics-Implementierungen erkannt werden, sodass diese URL-Parameter auch in Client-seitigen Tracking-Szenarien wertvolle Indikatoren sind.

Die folgende Tabelle zeigt, wie die Erkennungsmethoden für verschiedene LLM- und AI-Interaktionsszenarien verwendet werden können.

Szenario
Benutzeragenten-Identifizierung
Referrer-Klassifizierung
Abfrageparameter-Erkennung
Schulung eines Modells
Agent (GPTBot, ClaudeBot und mehr) können identifiziert werden, wenn die Server-seitige Protokollierung implementiert ist.
Eine Klassifizierung ist nicht möglich. KI-Crawler generieren während des Trainings keine Referrer.
Eine Erkennung ist unmöglich. KI-Crawler fügen beim Training keine Parameter hinzu.
Agent-Browsing
Agent (ChatGPT-User, claude-web) kann identifiziert werden, wenn die Server-seitige Protokollierung Kopfzeilen erfasst.
Eine Klassifizierung ist möglich, wenn der Agent von einer KI-Schnittstelle mit Referrer-Beibehaltung navigiert.
Manchmal ist eine Erkennung möglich, wenn der KI-Service Tracking-Parameter hinzufügt.
Abrufen der erweiterten Generierung (RAG) zur Beantwortung der Abfrage
Agent (OAI-SearchBot, PerplexityBot) kann mit Server-seitiger Protokollierung identifiziert werden.
Eine Klassifizierung ist in der Regel nicht möglich, da RAG-Vorgänge häufig Referrer-Mechanismen umgehen.
Eine Erkennung ist nur selten möglich, es sei denn, sie wird vom KI-Anbieter speziell implementiert.
Benutzer klickt durch
Der Agent kann nicht identifiziert werden. Der KI-Agent wird als normaler Benutzeragent angezeigt.
Eine Klassifizierung ist möglich, wenn Benutzer über AI-Schnittstellen auf Links klicken (chatgpt.com, claude.ai und mehr).
Die Erkennung ist möglich, wenn KI-Services UTM-Parameter zu ausgehenden Links hinzufügen.
Bedingungen für die Traffic-Sichtbarkeit
Server-seitige Protokollierungsintegration mit Customer Journey Analytics oder Server-seitiges Tagging zur Agentenidentifizierung erforderlich.
Die Klassifizierung hängt von den KI-Plattform-Referrer-Richtlinien und der ordnungsgemäßen HTTP-Header-Übertragung ab.
Die Erkennung erfordert eine Beibehaltung von Parametern durch Umleitungen und eine ordnungsgemäße URL-Parametererfassung.

Challenges

LLM- und KI-Agenten zeigen bei der Interaktion mit digitalen Eigenschaften komplexe und sich weiterentwickelnde Verhaltensweisen. Diese Technologien arbeiten plattform- und versionsübergreifend inkonsistent. Diese Inkonsistenz stellt Datenexperten vor einzigartige Herausforderungen. Die Verhaltensmuster variieren erheblich und hängen von der jeweiligen KI-Plattform, Version und dem verwendeten Interaktionsmodus ab. Diese betriebliche Vielfalt erschwert das Nachverfolgen und Kategorisieren von LLM- und KI-generiertem Traffic innerhalb standardmäßiger Analyse-Frameworks. Die komplexe Natur dieser Interaktionen in Kombination mit ihrer schnellen Entwicklung erfordert differenzierte Detektions- und Klassifizierungsmethoden, um die Datenintegrität aufrechtzuerhalten:

  • Partielle Datenerfassung: Einige neuere KI-Agenten führen eingeschränkte JavaScript aus, was zu unvollständigen Analysedaten für Client-seitige Implementierungen führt. Infolgedessen werden einige Interaktionen verfolgt, während andere Interaktionen übersehen werden.
  • Inkonsistente Sitzungsdaten: KI-Agenten führen JavaScript möglicherweise sitzungs- oder seitentypübergreifend unterschiedlich aus. Dieser Ausführungsunterschied führt zu fragmentierten Journey in Customer Journey Analytics für Client-seitige Implementierungen.
  • Herausforderungen bei der Erkennung: Bei teilweisem Tracking wird die Erkennung unzuverlässig, da bestimmte Touchpoints für Analytics möglicherweise unsichtbar sind.

Signaturen erkennen

Ab August 2025 können für jede der Nachweismethoden die folgenden spezifischen Signale identifiziert werden.

Benutzeragenten-Identifizierung

Crawler
Benutzeragenten-Zeichenfolge
Zweck/Verhalten
GPTBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
OpenAIs primärer Web-Crawler für das Trainieren von ChatGPT- und Sprachmodellen
ChatGPT-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Wird verwendet, wenn ChatGPT im Namen von Benutzern Websites durchsucht (veraltet)
ChatGPT-User v2
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot
Die aktualisierte Version von ChatGPT zum Abrufen von On-Demand- und Antwort-Suchen
OAI-SearchBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
Suchorientierter Crawler von ChatGPT für die Erkennung von Inhalten
ClaudeBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com
Anthropic Crawler zum Trainieren und Aktualisieren des Claude-KI-Assistenten
Claude-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
Unterstützt Claude AI-Benutzer Wenn Einzelpersonen Fragen an Claude stellen, kann es Websites mit einem CL…
Claude-SearchBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)
Navigiert im Web, um die Suchergebnisqualität für Claude AI-Benutzer zu verbessern, indem Online-Inhalte analysiert werden…
RatlosigkeitBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Crawler von Perplexity.ai für die Indizierung von Web-Daten in Echtzeit
Perplexity-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)
Lädt Seiten, wenn Benutzer auf Zitate von „Perplexity“ klicken (umgeht robots.txt)
Google-Extended
Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)
Googles KI-fokussierter Crawler für Gemini getrennt vom standardmäßigen Googlebot
BingBot
Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)
Microsofts Crawler für Bing Search und Bing Chat (Copilot)
Entenunterstützungs-Bot
Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)
Scrapes-Inhalt für DuckAssist, die private KI-Antwortfunktion von DuckDuckGo
YouBot
Mozilla/5.0 (compatible; YouBot (+http://www.you.com))
Crawler hinter dem KI-Such- und Browser-Assistenten von You.com
meta-externalAgent
Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))
Metas Bot zum Erfassen von Daten zum Trainieren oder Optimieren von LLMs
Amazonbot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Amazons Crawler für Such- und KI-Anwendungen
Applebot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Apples Crawler für Spotlight, Siri und Safari
applebot-extended
Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)
Apples KI-fokussierter Crawler für zukünftige KI-Modelle (Opt-in)
Bytespider
Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)
Der KI-Datenerfasser von ByteDance für TikTok und andere Services
MistralAI-User
Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)
Mistrals Echtzeit-Zitatabruf für den „Le Chat“-Assistenten
cohere-ai
Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)
Erfasst Textdaten für die Sprachmodelle von Cohere

Referrer-Klassifizierung

Quelle
Referrer
Traffic-Typ
ChatGPT
chatgpt.com
Direkter Traffic von der ChatGPT-Schnittstelle
Claude
claude.ai
Traffic von der Claude-Oberfläche von Anthropic
Google Gemini
gemini.google.com
Traffic vom KI-Assistenten von Google
Microsoft Copilot
copilot.microsoft.com
Traffic vom KI-Assistenten von Microsoft
Microsoft Copilot
m365.cloud.microsoft
Traffic vom KI-Assistenten von Microsoft (Microsoft 365-Cloud-Services)
Perplexity-KI
perplexity.ai
Traffic aus der KI-Suche mit Zitaten
META AI
meta.ai
Traffic vom KI-Assistenten von Meta

Abfrageparameter-Erkennung

LLM-Dienst
Beispiel-URL
Abfrageparameter
Beispielwert
ChatGPT
https://www.yoursite.com/product?utm_source=chatgpt.com
utm_source
chatgpt.com
Verwirrung
https://www.yoursite.com/article?utm_source=perplexity
utm_source
Verwirrung

Implementierung

Sie können in einem typischen Customer Journey Analytics-Setup (Verbindung, Datenansichten und Workspace-Projekte) Berichte zu LLM- und KI-generiertem Traffic erstellen, indem Sie abgeleitete Felder, Segmente und Workspace-Projekte.

Abgeleitete Felder

Für die Konfiguration von Detektionsmethoden und Detektionssignalen werden abgeleitete Felder als Grundlage verwendet. Definieren Sie beispielsweise abgeleitete Felder für Benutzeragenten-Identifizierung, Abfrageparametererkennung und Referrer-Klassifizierung.

LLM/AI-Benutzeragenten-Identifizierung

Verwenden Sie die abgeleiteten Feldfunktionen Wenn, um ein abgeleitetes Feld zu definieren, das LLM/AI-Benutzeragenten identifiziert.

LLM/AI-Benutzeragenten-Identifizierung {modal="regular"}

LLM/AI-Abfrageparameter-Erkennung

Verwenden Sie die Funktionen URL-Parsen und Klassifizieren abgeleitete Felder, um ein abgeleitetes Feld zu definieren, das Abfrageparameter erkennt.

LLM/AI UTM-Parametererkennung {modal="regular"}

LLM/AI Referrer Classification

Verwenden Sie die Funktionen URL-Analyse und Klassifizieren abgeleiteter Felder, um ein abgeleitetes Feld zu definieren, das Referrer klassifiziert.

LLM/AI Referrer Classification {modal="regular"}

Segmente

Richten Sie spezielle Segmente ein, mit denen Sie Ereignisse, Sitzungen oder Personen im Zusammenhang mit LLM und KI-generiertem Traffic identifizieren können. Verwenden Sie beispielsweise die abgeleiteten Felder, die Sie zuvor erstellt haben, um ein Segment zu definieren, das den LLM- und den KI-generierten Traffic identifiziert.

LLM und KI-generiertes Traffic-Segment {modal="regular"}

Workspace-Projekt

Verwenden Sie die abgeleiteten Felder und Segmente, um Berichte und Analysen zu LLM und KI-generiertem Traffic durchzuführen. Ein Beispiel finden Sie im kommentierten Projekt unten.

LLM- und KI-generiertes Traffic-Workspace-Projekt {modal="regular"}

recommendation-more-help
080e5213-7aa2-40d6-9dba-18945e892f79