Relatório sobre tráfego gerado por LLM e IA

Este artigo de caso de uso explica como usar o recurso de campos derivados do Customer Journey Analytics como base para criar relatórios sobre o LLM (Modelo de idioma grande) e o tráfego gerado pela IA.

NOTE
A eficácia dos métodos de detecção, assinaturas de detecção e estratégias de implementação depende do método de coleta de dados específico, da cobertura do conjunto de dados da Experience Platform e da implementação do Customer Journey Analytics. Os resultados podem variar com base no ambiente técnico, nas políticas de governança de dados e na abordagem de implementação. Ao usar o Experience Edge, será necessário escolher entre gravar a cadeia de caracteres bruta do Agente do usuário ou coletar informações do dispositivo.

Métodos de detecção

Para detectar o tráfego gerado por LLM e IA, faça a distinção entre:

  • Rastreadores de LLM: coletam dados para RAG (geração aumentada) de treinamento e recuperação.
  • Agentes de IA: funcionam como interfaces que executam tarefas em nome de humanos. Os agentes de IA preferem interagir por meio de APIs, o que ignora os métodos de rastreamento de análise da Web. No entanto, você ainda pode analisar uma parte significativa do tráfego gerado pela IA por meio de sites.

Três métodos principais comuns de detecção para identificar e monitorar o tráfego gerado por LLM e AI são:

  • Identificação do agente do usuário: quando uma solicitação é feita ao servidor, o cabeçalho Usuário-Agente HTTP é extraído e analisado em relação aos padrões do rastreador e do agente de IA conhecidos. Esse método do lado do servidor requer acesso a cabeçalhos HTTP e é mais eficaz quando implementado na camada de coleta de dados.
  • Classificação do referenciador: o cabeçalho Referenciador HTTP contém a URL da página da Web anterior vinculada à solicitação atual. Esse cabeçalho revela quando os usuários clicam para acessar seu site a partir de interfaces da Web como ChatGPT ou Perplexity.
  • Detecção de parâmetro de consulta: os serviços de IA podem anexar parâmetros de URL (particularmente parâmetros UTM) a links. Esses parâmetros persistem no URL e podem ser detectados por meio de implementações padrão de análise, tornando esses parâmetros de URL indicadores valiosos mesmo em cenários de rastreamento do lado do cliente.

A tabela a seguir ilustra como os métodos de detecção podem ser usados em diferentes cenários de interação de LLM e IA.

Cenário
Identificação do agente do usuário
Classificação do referenciador
Detecção de parâmetro de consulta
Treinamento de um modelo
O agente (GPTBot, ClaudeBot e mais) pode ser identificado quando o log do lado do servidor é implementado.
Nenhuma classificação é possível. Os rastreadores de IA não geram referenciadores durante o treinamento.
A detecção é impossível. Os rastreadores de IA não adicionam parâmetros durante o treinamento.
Navegação do agente
O agente (ChatGPT-User, claude-web) pode ser identificado quando o log do lado do servidor captura cabeçalhos.
A classificação é possível se o agente navegar de uma interface de IA com preservação de referenciador.
Às vezes, a detecção é possível se o serviço de IA adicionar parâmetros de rastreamento.
Geração aumentada de recuperação (RAG) para responder a consulta
O agente (OAI-SearchBot, PerplexityBot) pode ser identificado com o log do lado do servidor.
Normalmente, nenhuma classificação é possível, uma vez que as operações de RAG muitas vezes ignoram os mecanismos do referenciador.
A detecção raramente é possível, a menos que especificamente implementada pelo provedor de IA.
Cliques do usuário
O agente não pode ser identificado. O agente de IA aparece como um agente de usuário normal.
A classificação é possível quando os usuários clicam em links de interfaces de IA (chatgpt.com, claude.ai e muito mais).
A detecção é possível quando os serviços de IA adicionam parâmetros UTM a links externos.
Condições de visibilidade de tráfego
Exigir integração de registro do lado do servidor com o Customer Journey Analytics ou marcação do lado do servidor para identificação do agente.
A classificação depende das políticas do referenciador de plataforma de IA e da transmissão adequada do cabeçalho HTTP.
A detecção requer a preservação de parâmetros por meio de redirecionamentos e da coleta adequada de parâmetros de URL.

Desafios

Os agentes de LLM e IA demonstram comportamentos complexos e em evolução ao interagir com propriedades digitais. Essas tecnologias operam de forma inconsistente entre plataformas e versões. Essa inconsistência cria desafios únicos para os profissionais de dados. Os padrões comportamentais variam significativamente e dependem da plataforma de IA específica, da versão e do modo de interação usado. Essa diversidade operacional complica os esforços para rastrear e categorizar o tráfego gerado por LLM e IA dentro de estruturas de análise padrão. A natureza complexa dessas interações, combinada com sua rápida evolução, requer métodos de detecção e classificação aprimorados para manter a integridade dos dados:

  • Coleta de dados parcial: alguns agentes de IA mais recentes executam JavaScript limitado, resultando em dados de análise incompletos para implementações do lado do cliente. Como resultado, algumas interações são rastreadas, enquanto outras são perdidas.
  • Dados inconsistentes da sessão: os agentes de IA podem executar o JavaScript de forma diferente entre sessões ou tipos de página. Essa diferença de execução cria jornadas de usuário fragmentadas no Customer Journey Analytics para implementações do lado do cliente.
  • Desafios de detecção: com o rastreamento parcial, a detecção se torna não confiável, pois determinados pontos de contato podem ficar invisíveis para a análise.

Assinaturas de detecção

A partir de agosto de 2025, os seguintes sinais específicos podem ser identificados para cada um dos métodos de detecção.

Identificação do agente do usuário

Crawler
Sequência de agente do usuário
Finalidade/Comportamento
GPTBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
O crawler primário da Web do OpenAI para treinamento de modelos de linguagem e ChatGPT
ChatGPT-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Usado quando o ChatGPT navega em sites em nome de usuários (herdado)
ChatGPT-User v2
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot
Versão atualizada do ChatGPT para buscas sob demanda e em resposta
OAI-SearchBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
Rastreador focado em pesquisa do ChatGPT para descoberta de conteúdo
ClaudeBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com
Crawler da Anthropic para treinamento e atualização do assistente da Claude AI
Claude-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
Suporta usuários Claude AI quando indivíduos fazem perguntas a Claude, pode acessar sites usando um Cl...
Claude-SearchBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)
Navega pela web para melhorar a qualidade dos resultados de pesquisa para os usuários do Claude AI, analisando o conteúdo on-line para...
PerplexityBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Crawler do Perplexity.ai para indexação de dados da Web em tempo real
Perplexidade-Usuário
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)
Carrega páginas quando os usuários clicam em Citações de perplexidade (ignora robots.txt)
Google-Extended
Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)
Crawler da Google focado em IA para Gemini separado do Googlebot padrão
BingBot
Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)
Rastreador do Microsoft que impulsiona a pesquisa do Bing e o Bing Chat (Copilot)
DuckAssistBot
Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)
Conteúdo do Scrapes para o DuckAssist, recurso de resposta de IA privada do DuckDuckGo
YouBot
Mozilla/5.0 (compatible; YouBot (+http://www.you.com))
Rastreador por trás do assistente de pesquisa e navegador da IA do You.com
meta-externalagent
Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))
O bot da Meta para coletar dados para treinar ou ajustar LLMs
Amazonbot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Crawler da Amazon para aplicativos de pesquisa e IA
Applebot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Crawler da Apple para Spotlight, Siri e Safari
Applebot-Extended
Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)
Crawler com foco em IA da Apple para futuros modelos de IA (aceitação)
Bytespider
Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)
Coletor de dados de IA da ByteDance para TikTok e outros serviços
MistralAI-User
Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)
Buscador de citações em tempo real do Mistral para o assistente "Le Chat"
cohere-ai
Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)
Coleta dados textuais para os modelos de linguagem da Cohere

Classificação do referenciador

Origem
Referenciador
Tipo de tráfego
ChatGPT
chatgpt.com
Tráfego direto da interface do ChatGPT
Claude
claude.ai
Tráfego da interface Claude da Anthropic
Google Gemini
gemini.google.com
Tráfego do assistente de IA do Google
Microsoft Copilot
copilot.microsoft.com
Tráfego do assistente de IA do Microsoft
Microsoft Copilot
m365.cloud.microsoft
Tráfego do assistente de IA da Microsoft (serviços de nuvem do Microsoft 365)
Perplexity AI
perplexity.ai
Tráfego da pesquisa de IA com citações
META AI
meta.ai
Tráfego do assistente de IA do Meta

Detecção de parâmetro de consulta

Serviço LLM
Exemplo de URL
Parâmetro da consulta
Exemplo de valor
ChatGPT
https://www.yoursite.com/product?utm_source=chatgpt.com
utm_source
chatgpt.com
Perplexidade
https://www.yoursite.com/article?utm_source=perplexity
utm_source
perplexidade

Implementação

Você pode criar relatórios sobre o tráfego gerado pelo LLM e pela IA em uma configuração típica do Customer Journey Analytics (conexão, visualizações de dados e projetos do espaço de trabalho) por meio da configuração específica e da configuração de campos derivados, segmentos e projetos do espaço de trabalho.

Campos derivados

Para configurar métodos e sinais de detecção, use campos derivados como base. Por exemplo, defina campos derivados para identificação de agente de usuário, detecção de parâmetro de consulta e classificação de referenciador.

Identificação do agente de usuário do LLM/AI

Use as funções de campo derivado Case When para definir um campo derivado que identifica agentes de usuário LLM/AI.

Identificação do Agente do Usuário do LLM/AI {modal="regular"}

Detecção de parâmetro de consulta LLM/AI

Use as funções de campo derivado Análise de URL e Classificar para definir um campo derivado que detecte parâmetros de consulta.

Detecção de parâmetro UTM de LLM/AI {modal="regular"}

Classificação do referenciador LLM/AI

Use as funções de campo derivado Análise de URL e Classificar para definir um campo derivado que classifique referenciadores.

Classificação de Referenciador LLM/AI {modal="regular"}

Segmentos

Configure segmentos dedicados que ajudam a identificar eventos, sessões ou pessoas relacionados ao tráfego gerado pelo LLM e pela AI. Por exemplo, use os campos derivados criados anteriormente para definir um segmento que identifique o tráfego gerado pelo LLM e pela AI.

Segmento de tráfego gerado por LLM e IA {modal="regular"}

Projeto do Workspace

Use os campos e segmentos derivados para relatar e analisar o tráfego gerado pelo LLM e pela AI. Por exemplo, consulte o projeto anotado abaixo.

Projeto Workspace de tráfego gerado por LLM e IA {modal="regular"}

recommendation-more-help
080e5213-7aa2-40d6-9dba-18945e892f79