关于LLM和AI生成的流量的报告
本用例文章探讨了如何使用Customer Journey Analytics派生字段功能作为报告LLM(大语言模型)和AI生成的流量的基础。
检测方法
要检测LLM和AI生成的流量,请区分:
- LLM爬网程序:收集用于训练和检索增强生成(RAG)的数据。
- AI代理:充当代表人类执行任务的接口。 AI代理更喜欢通过API进行交互,这绕过了网站分析跟踪方法。 尽管如此,您仍然可以分析人工智能生成的网站流量的很大一部分。
用于识别和监控LLM和AI生成的流量的三种常见核心检测方法是:
- 用户代理标识:向服务器发出请求时,将提取HTTP User-Agent标头并根据已知的AI爬网程序和代理模式进行分析。 此服务器端方法需要访问HTTP标头,并且在数据收集层实施时最有效。
- 反向链接分类: HTTP反向链接标头包含链接到当前请求的上一个网页的URL。 当用户从ChatGPT或Perplexity等Web界面点击进入您的网站时,此标题会显示。
- 查询参数检测: AI服务可以将URL参数(特别是UTM参数)附加到链接。 这些参数会在URL中持续存在,并且可以通过标准分析实施进行检测,这使得这些URL参数即使在客户端跟踪场景中也可以发挥重要作用。
下表说明了如何针对不同的LLM和AI交互场景使用这些检测方法。
GPTBot
、ClaudeBot
等)。ChatGPT-User
, claude-web
)。OAI-SearchBot
, PerplexityBot
)。挑战
LLM和AI代理在与数字属性交互时表现出复杂且不断演变的行为。 这些技术在不同平台和版本之间运行不一致。 这种不一致给数据专业人员带来了独特的挑战。 行为模式存在显着差异,具体取决于所使用的特定AI平台、版本和交互模式。 这种操作多样性使得在标准分析框架中跟踪和分类LLM和AI生成的流量的工作变得复杂。 这些交互的复杂性质,加上其快速演化,需要细致的检测和分类方法来维护数据完整性:
- 部分数据收集:一些较新的AI代理执行有限的JavaScript,导致客户端实施的Analytics数据不完整。 因此,某些交互会被跟踪,而其他交互会被错过。
- 会话数据不一致: AI代理可能在不同会话或页面类型中执行JavaScript的方式有所不同。 这种执行差异在Customer Journey Analytics中为客户端实施创建了零碎的用户旅程。
- 检测挑战:对于部分跟踪,检测变得不可靠,因为某些接触点可能对Analytics不可见。
检测签名
从2025年8月起,可以识别每种检测方法的以下特定信号。
用户代理标识
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)
Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)
Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)
Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)
Mozilla/5.0 (compatible; YouBot (+http://www.you.com))
Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)
Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)
Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)
Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)
反向链接分类
查询参数检测
实施
您可以通过派生字段、区段和工作区项目的特定设置和配置,在典型的Customer Journey Analytics设置(连接、数据视图和工作区项目)中报告LLM和AI生成的流量。
派生字段
要配置检测方法和检测信号,需以派生字段为基础。 例如,为用户代理标识、查询参数检测和反向链接分类定义派生字段。
LLM/AI用户代理识别
使用Case When派生字段函数定义标识LLM/AI用户代理的派生字段。
LLM/AI查询参数检测
使用URL分析和分类派生字段函数定义检测查询参数的派生字段。
LLM/AI反向链接分类
使用URL Parse和Classify派生字段函数定义用于对反向链接进行分类的派生字段。
区段
设置专用区段,帮助您识别与LLM和AI生成的流量相关的事件、会话或人员。 例如,使用您之前创建的派生字段定义一个区段,以标识LLM和AI生成的流量。
Workspace项目
使用派生的字段和区段来报告和分析LLM和AI生成的流量。 例如,请参阅下面带注释的项目。