关于LLM和AI生成的流量的报告

本用例文章探讨了如何使用Customer Journey Analytics派生字段功能作为报告LLM(大语言模型)和AI生成的流量的基础。

NOTE
检测方法检测签名实施策略的有效性取决于您的特定数据收集方法、Experience Platform数据集覆盖率和Customer Journey Analytics实施。 结果可能会因您的技术环境、数据治理策略和实施方法而异。 使用Experience Edge时,您需要选择记录原始用户代理字符串还是收集设备信息。

检测方法

要检测LLM和AI生成的流量,请区分:

  • LLM爬网程序:收集用于训练和检索增强生成(RAG)的数据。
  • AI代理:充当代表人类执行任务的接口。 AI代理更喜欢通过API进行交互,这绕过了网站分析跟踪方法。 尽管如此,您仍然可以分析人工智能生成的网站流量的很大一部分。

用于识别和监控LLM和AI生成的流量的三种常见核心检测方法是:

  • 用户代理标识:向服务器发出请求时,将提取HTTP User-Agent标头并根据已知的AI爬网程序和代理模式进行分析。 此服务器端方法需要访问HTTP标头,并且在数据收集层实施时最有效。
  • 反向链接分类: HTTP反向链接标头包含链接到当前请求的上一个网页的URL。 当用户从ChatGPT或Perplexity等Web界面点击进入您的网站时,此标题会显示。
  • 查询参数检测: AI服务可以将URL参数(特别是UTM参数)附加到链接。 这些参数会在URL中持续存在,并且可以通过标准分析实施进行检测,这使得这些URL参数即使在客户端跟踪场景中也可以发挥重要作用。

下表说明了如何针对不同的LLM和AI交互场景使用这些检测方法。

场景
用户代理标识
反向链接分类
查询参数检测
训练模型
实施服务器端日志记录时,可以识别代理(GPTBotClaudeBot等)。
无法分类。 AI爬虫在训练期间不会生成反向链接。
检测是不可能的。 AI爬网程序在训练期间不添加参数。
代理浏览
服务器端日志记录捕获标头时可以识别代理(ChatGPT-Userclaude-web)。
如果代理从具有反向链接保留的AI界面导航,则可以进行分类。
如果AI服务添加跟踪参数,则有时可能进行检测。
检索增强生成(RAG)以回答查询
可以使用服务器端日志记录标识代理(OAI-SearchBotPerplexityBot)。
由于RAG操作通常会绕过反向链接机制,因此通常不可能进行分类。
除非由AI提供程序专门实施,否则很少可能进行检测。
用户点进次数
无法识别代理。 AI代理显示为普通用户代理。
当用户从AI界面单击链接(chatgpt.comclaude.ai等)时,可以进行分类。
当AI服务将UTM参数添加到出站链接时,可能会进行检测。
流量可见性条件
需要与Customer Journey Analytics或服务器端标记集成的服务器端日志记录才能识别代理。
分类取决于AI平台反向链接策略和适当的HTTP标头传输。
检测要求通过重定向和正确的URL参数收集来保留参数。

挑战

LLM和AI代理在与数字属性交互时表现出复杂且不断演变的行为。 这些技术在不同平台和版本之间运行不一致。 这种不一致给数据专业人员带来了独特的挑战。 行为模式存在显着差异,具体取决于所使用的特定AI平台、版本和交互模式。 这种操作多样性使得在标准分析框架中跟踪和分类LLM和AI生成的流量的工作变得复杂。 这些交互的复杂性质,加上其快速演化,需要细致的检测和分类方法来维护数据完整性:

  • 部分数据收集:一些较新的AI代理执行有限的JavaScript,导致客户端实施的Analytics数据不完整。 因此,某些交互会被跟踪,而其他交互会被错过。
  • 会话数据不一致: AI代理可能在不同会话或页面类型中执行JavaScript的方式有所不同。 这种执行差异在Customer Journey Analytics中为客户端实施创建了零碎的用户旅程。
  • 检测挑战:对于部分跟踪,检测变得不可靠,因为某些接触点可能对Analytics不可见。

检测签名

从2025年8月起,可以识别每种检测方法的以下特定信号。

用户代理标识

爬网程序
用户代理字符串
用途/行为
GPTBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
OpenAI的主要网络爬虫程序,用于训练ChatGPT和语言模型
ChatGPT-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
在ChatGPT代表用户浏览网站时使用(旧版)
ChatGPT-User v2
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot
ChatGPT的更新版本用于按需获取和响应查找
OAI-SearchBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
ChatGPT的搜索主题爬虫程序,用于发现内容
克劳德机器人
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com
用于训练和更新克劳德AI助理的人工爬行器
克劳德用户
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
支持Claude AI用户,当个人向Claude提问时,它可以使用Cl访问网站……
克劳德 — 搜索机器人
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)
通过在线内容分析,对Claude AI用户进行网络导航,以提高其搜索结果质量。
PerplexityBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Perplexity.ai用于实时编制网页数据索引的爬虫程序
Perplexity — 用户
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)
在用户单击Perplexity引文时加载页面(绕过robots.txt)
Google-Extended
Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)
Google面向Gemini的以人工智能为中心的爬虫程序,独立于标准的GoogleBot
BingBot
Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)
Microsoft的爬虫程序为Bing Search和Bing Chat提供支持(Copilot)
DuckAssistBot
Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)
为DuckDuckGo的私人AI应答功能DuckAssist删除内容
YouBot
Mozilla/5.0 (compatible; YouBot (+http://www.you.com))
You.com的AI搜索和浏览器助手背后的爬网程序
meta-externalagent
Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))
Meta用于收集数据以训练或微调LLM的机器人
Amazonbot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Amazon的搜索和AI应用程序爬网程序
Applebot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Apple的聚焦、Siri和Safari爬虫程序
Applebot-Extended
Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)
Apple面向未来AI模型的以AI为中心的爬虫程序(选择加入)
Bytespid
Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)
字节跳动用于TikTok和其他服务的AI数据收集器
MistralAI — 用户
Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)
Mistral的“Le Chat”助理实时引文提取器
cohere-ai
Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)
为Cohere的语言模型收集文本数据

反向链接分类

来源
反向链接
流量类型
ChatGPT
chatgpt.com
直接来自ChatGPT界面的流量
克劳德
claude.ai
来自Anthropic的Claude界面的流量
Google Gemini
gemini.google.com
来自Google AI助理的流量
Microsoft Copilot
copilot.microsoft.com
来自Microsoft AI助理的流量
Microsoft Copilot
m365.cloud.microsoft
来自Microsoft AI助手(Microsoft 365 cloud services)的流量
复杂人工智能
perplexity.ai
来自具有引文的AI搜索的流量
Meta人工智能
meta.ai
来自Meta AI助理的流量

查询参数检测

LLM服务
示例URL
查询参数
示例值
ChatGPT
https://www.yoursite.com/product?utm_source=chatgpt.com
utm_source
chatgpt.com
复杂性
https://www.yoursite.com/article?utm_source=perplexity
utm_source
复杂性

实施

您可以通过派生字段区段工作区项目的特定设置和配置,在典型的Customer Journey Analytics设置(连接数据视图工作区项目)中报告LLM和AI生成的流量。

派生字段

要配置检测方法和检测信号,需以派生字段为基础。 例如,为用户代理标识查询参数检测反向链接分类定义派生字段。

LLM/AI用户代理识别

使用Case When派生字段函数定义标识LLM/AI用户代理的派生字段。

LLM/AI用户代理标识 {modal="regular"}

LLM/AI查询参数检测

使用URL分析分类派生字段函数定义检测查询参数的派生字段。

LLM/AI UTM参数检测 {modal="regular"}

LLM/AI反向链接分类

使用URL ParseClassify派生字段函数定义用于对反向链接进行分类的派生字段。

LLM/AI反向链接分类 {modal="regular"}

区段

设置专用区段,帮助您识别与LLM和AI生成的流量相关的事件、会话或人员。 例如,使用您之前创建的派生字段定义一个区段,以标识LLM和AI生成的流量。

LLM和AI生成的流量区段 {modal="regular"}

Workspace项目

使用派生的字段和区段来报告和分析LLM和AI生成的流量。 例如,请参阅下面带注释的项目。

LLM和AI生成的流量Workspace项目 {modal="regular"}

recommendation-more-help
080e5213-7aa2-40d6-9dba-18945e892f79