Relatório sobre tráfego gerado por LLM e IA
Este artigo de caso de uso explica como usar o recurso de campos derivados do Customer Journey Analytics como base para criar relatórios sobre o LLM (Modelo de idioma grande) e o tráfego gerado pela IA.
Métodos de detecção
Para detectar o tráfego gerado por LLM e IA, faça a distinção entre:
- Rastreadores de LLM: coletam dados para RAG (geração aumentada) de treinamento e recuperação.
- Agentes de IA: funcionam como interfaces que executam tarefas em nome de humanos. Os agentes de IA preferem interagir por meio de APIs, o que ignora os métodos de rastreamento de análise da Web. No entanto, você ainda pode analisar uma parte significativa do tráfego gerado pela IA por meio de sites.
Três métodos principais comuns de detecção para identificar e monitorar o tráfego gerado por LLM e AI são:
- Identificação do agente do usuário: quando uma solicitação é feita ao servidor, o cabeçalho Usuário-Agente HTTP é extraído e analisado em relação aos padrões do rastreador e do agente de IA conhecidos. Esse método do lado do servidor requer acesso a cabeçalhos HTTP e é mais eficaz quando implementado na camada de coleta de dados.
- Classificação do referenciador: o cabeçalho Referenciador HTTP contém a URL da página da Web anterior vinculada à solicitação atual. Esse cabeçalho revela quando os usuários clicam para acessar seu site a partir de interfaces da Web como ChatGPT ou Perplexity.
- Detecção de parâmetro de consulta: os serviços de IA podem anexar parâmetros de URL (particularmente parâmetros UTM) a links. Esses parâmetros persistem no URL e podem ser detectados por meio de implementações padrão de análise, tornando esses parâmetros de URL indicadores valiosos mesmo em cenários de rastreamento do lado do cliente.
A tabela a seguir ilustra como os métodos de detecção podem ser usados em diferentes cenários de interação de LLM e IA.
GPTBot
, ClaudeBot
e mais) pode ser identificado quando o log do lado do servidor é implementado.ChatGPT-User
, claude-web
) pode ser identificado quando o log do lado do servidor captura cabeçalhos.OAI-SearchBot
, PerplexityBot
) pode ser identificado com o log do lado do servidor.Desafios
Os agentes de LLM e IA demonstram comportamentos complexos e em evolução ao interagir com propriedades digitais. Essas tecnologias operam de forma inconsistente entre plataformas e versões. Essa inconsistência cria desafios únicos para os profissionais de dados. Os padrões comportamentais variam significativamente e dependem da plataforma de IA específica, da versão e do modo de interação usado. Essa diversidade operacional complica os esforços para rastrear e categorizar o tráfego gerado por LLM e IA dentro de estruturas de análise padrão. A natureza complexa dessas interações, combinada com sua rápida evolução, requer métodos de detecção e classificação aprimorados para manter a integridade dos dados:
- Coleta de dados parcial: alguns agentes de IA mais recentes executam JavaScript limitado, resultando em dados de análise incompletos para implementações do lado do cliente. Como resultado, algumas interações são rastreadas, enquanto outras são perdidas.
- Dados inconsistentes da sessão: os agentes de IA podem executar o JavaScript de forma diferente entre sessões ou tipos de página. Essa diferença de execução cria jornadas de usuário fragmentadas no Customer Journey Analytics para implementações do lado do cliente.
- Desafios de detecção: com o rastreamento parcial, a detecção se torna não confiável, pois determinados pontos de contato podem ficar invisíveis para a análise.
Assinaturas de detecção
A partir de agosto de 2025, os seguintes sinais específicos podem ser identificados para cada um dos métodos de detecção.
Identificação do agente do usuário
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)
Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)
Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)
Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)
Mozilla/5.0 (compatible; YouBot (+http://www.you.com))
Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)
Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)
Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)
Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)
Classificação do referenciador
Detecção de parâmetro de consulta
Implementação
Você pode criar relatórios sobre o tráfego gerado pelo LLM e pela IA em uma configuração típica do Customer Journey Analytics (conexão, visualizações de dados e projetos do espaço de trabalho) por meio da configuração específica e da configuração de campos derivados, segmentos e projetos do espaço de trabalho.
Campos derivados
Para configurar métodos e sinais de detecção, use campos derivados como base. Por exemplo, defina campos derivados para identificação de agente de usuário, detecção de parâmetro de consulta e classificação de referenciador.
Identificação do agente de usuário do LLM/AI
Use as funções de campo derivado Case When para definir um campo derivado que identifica agentes de usuário LLM/AI.
Detecção de parâmetro de consulta LLM/AI
Use as funções de campo derivado Análise de URL e Classificar para definir um campo derivado que detecte parâmetros de consulta.
Classificação do referenciador LLM/AI
Use as funções de campo derivado Análise de URL e Classificar para definir um campo derivado que classifique referenciadores.
Segmentos
Configure segmentos dedicados que ajudam a identificar eventos, sessões ou pessoas relacionados ao tráfego gerado pelo LLM e pela AI. Por exemplo, use os campos derivados criados anteriormente para definir um segmento que identifique o tráfego gerado pelo LLM e pela AI.
Projeto do Workspace
Use os campos e segmentos derivados para relatar e analisar o tráfego gerado pelo LLM e pela AI. Por exemplo, consulte o projeto anotado abaixo.