Documentação Customer Journey Analytics Guia do Customer Journey Analytics

Relatório sobre tráfego gerado por LLM e IA

Last update: Tue Dec 02 2025 00:00:00 GMT+0000 (Coordinated Universal Time)

Tópicos:

Criado para:

Usuário

Este artigo de caso de uso explica como usar o recurso de campos derivados do Customer Journey Analytics como base para criar relatórios sobre o LLM (Modelo de idioma grande) e o tráfego gerado pela IA.

NOTE

A eficácia dos métodos de detecção, assinaturas de detecção e estratégias de implementação depende do método de coleta de dados específico, da cobertura do conjunto de dados da Experience Platform e da implementação do Customer Journey Analytics. Os resultados podem variar com base no ambiente técnico, nas políticas de governança de dados e na abordagem de implementação. Ao usar o Experience Edge, será necessário escolher entre gravar a cadeia de caracteres bruta do Agente do usuário ou coletar informações do dispositivo.

Métodos de detecção

Para detectar o tráfego gerado por LLM e IA, faça a distinção entre:

Rastreadores de LLM: coletam dados para RAG (geração aumentada) de treinamento e recuperação.
Agentes de IA: funcionam como interfaces que executam tarefas em nome de humanos. Os agentes de IA preferem interagir por meio de APIs, o que ignora os métodos de rastreamento de análise da Web. No entanto, você ainda pode analisar uma parte significativa do tráfego gerado pela IA por meio de sites.

Três métodos principais comuns de detecção para identificar e monitorar o tráfego gerado por LLM e AI são:

Identificação do agente do usuário: quando uma solicitação é feita ao servidor, o cabeçalho Usuário-Agente HTTP é extraído e analisado em relação aos padrões do rastreador e do agente de IA conhecidos. Esse método do lado do servidor requer acesso a cabeçalhos HTTP e é mais eficaz quando implementado na camada de coleta de dados.
Classificação do referenciador: o cabeçalho Referenciador HTTP contém a URL da página da Web anterior vinculada à solicitação atual. Esse cabeçalho revela quando os usuários clicam para acessar seu site a partir de interfaces da Web como ChatGPT ou Perplexity.
Detecção de parâmetro de consulta: os serviços de IA podem anexar parâmetros de URL (particularmente parâmetros UTM) a links. Esses parâmetros persistem no URL e podem ser detectados por meio de implementações padrão de análise, tornando esses parâmetros de URL indicadores valiosos mesmo em cenários de rastreamento do lado do cliente.

A tabela a seguir ilustra como os métodos de detecção podem ser usados em diferentes cenários de interação de LLM e IA.

Cenário

Identificação do agente do usuário

Classificação do referenciador

Detecção de parâmetro de consulta

Treinamento de um modelo

O agente (GPTBot, ClaudeBot e mais) pode ser identificado quando o log do lado do servidor é implementado.

Nenhuma classificação é possível. Os rastreadores de IA não geram referenciadores durante o treinamento.

A detecção é impossível. Os rastreadores de IA não adicionam parâmetros durante o treinamento.

Navegação do agente

O agente (ChatGPT-User, claude-web) pode ser identificado quando o log do lado do servidor captura cabeçalhos.

A classificação é possível se o agente navegar de uma interface de IA com preservação de referenciador.

Às vezes, a detecção é possível se o serviço de IA adicionar parâmetros de rastreamento.

Geração aumentada de recuperação (RAG) para responder a consulta

O agente (OAI-SearchBot, PerplexityBot) pode ser identificado com o log do lado do servidor.

Normalmente, nenhuma classificação é possível, uma vez que as operações de RAG muitas vezes ignoram os mecanismos do referenciador.

A detecção raramente é possível, a menos que especificamente implementada pelo provedor de IA.

Cliques do usuário

O agente não pode ser identificado. O agente de IA aparece como um agente de usuário normal.

A classificação é possível quando os usuários clicam em links de interfaces de IA (chatgpt.com, claude.ai e muito mais).

A detecção é possível quando os serviços de IA adicionam parâmetros UTM a links externos.

Condições de visibilidade de tráfego

Exigir integração de registro do lado do servidor com o Customer Journey Analytics ou marcação do lado do servidor para identificação do agente.

A classificação depende das políticas do referenciador de plataforma de IA e da transmissão adequada do cabeçalho HTTP.

A detecção requer a preservação de parâmetros por meio de redirecionamentos e da coleta adequada de parâmetros de URL.

Desafios

Os agentes de LLM e IA demonstram comportamentos complexos e em evolução ao interagir com propriedades digitais. Essas tecnologias operam de forma inconsistente entre plataformas e versões. Essa inconsistência cria desafios únicos para os profissionais de dados. Os padrões comportamentais variam significativamente e dependem da plataforma de IA específica, da versão e do modo de interação usado. Essa diversidade operacional complica os esforços para rastrear e categorizar o tráfego gerado por LLM e IA dentro de estruturas de análise padrão. A natureza complexa dessas interações, combinada com sua rápida evolução, requer métodos de detecção e classificação aprimorados para manter a integridade dos dados:

Coleta de dados parcial: alguns agentes de IA mais recentes executam JavaScript limitado, resultando em dados de análise incompletos para implementações do lado do cliente. Como resultado, algumas interações são rastreadas, enquanto outras são perdidas.
Dados inconsistentes da sessão: os agentes de IA podem executar o JavaScript de forma diferente entre sessões ou tipos de página. Essa diferença de execução cria jornadas de usuário fragmentadas no Customer Journey Analytics para implementações do lado do cliente.
Desafios de detecção: com o rastreamento parcial, a detecção se torna não confiável, pois determinados pontos de contato podem ficar invisíveis para a análise.

Assinaturas de detecção

A partir de agosto de 2025, os seguintes sinais específicos podem ser identificados para cada um dos métodos de detecção.

Identificação do agente do usuário

Crawler

Sequência de agente do usuário

Finalidade/Comportamento

GPTBot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot

O crawler primário da Web do OpenAI para treinamento de modelos de linguagem e ChatGPT

ChatGPT-User

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

Usado quando o ChatGPT navega em sites em nome de usuários (herdado)

ChatGPT-User v2

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot

Versão atualizada do ChatGPT para buscas sob demanda e em resposta

OAI-SearchBot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot

Rastreador focado em pesquisa do ChatGPT para descoberta de conteúdo

ClaudeBot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com

Crawler da Anthropic para treinamento e atualização do assistente da Claude AI

Claude-User

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)

Suporta usuários Claude AI quando indivíduos fazem perguntas a Claude, pode acessar sites usando um Cl...

Claude-SearchBot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)

Navega pela web para melhorar a qualidade dos resultados de pesquisa para os usuários do Claude AI, analisando o conteúdo on-line para...

PerplexityBot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)

Crawler do Perplexity.ai para indexação de dados da Web em tempo real

Perplexidade-Usuário

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)

Carrega páginas quando os usuários clicam em Citações de perplexidade (ignora robots.txt)

Google-Extended

Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)

Crawler da Google focado em IA para Gemini separado do Googlebot padrão

BingBot

Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)

Rastreador do Microsoft que impulsiona a pesquisa do Bing e o Bing Chat (Copilot)

DuckAssistBot

Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)

Conteúdo do Scrapes para o DuckAssist, recurso de resposta de IA privada do DuckDuckGo

YouBot

Mozilla/5.0 (compatible; YouBot (+http://www.you.com))

Rastreador por trás do assistente de pesquisa e navegador da IA do You.com

meta-externalagent

Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))

O bot da Meta para coletar dados para treinar ou ajustar LLMs

Amazonbot

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Crawler da Amazon para aplicativos de pesquisa e IA

Applebot

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)

Crawler da Apple para Spotlight, Siri e Safari

Applebot-Extended

Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)

Crawler com foco em IA da Apple para futuros modelos de IA (aceitação)

Bytespider

Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)

Coletor de dados de IA da ByteDance para TikTok e outros serviços

MistralAI-User

Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)

Buscador de citações em tempo real do Mistral para o assistente "Le Chat"

cohere-ai

Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)

Coleta dados textuais para os modelos de linguagem da Cohere

Classificação do referenciador

Origem

Referenciador

Tipo de tráfego

ChatGPT

chatgpt.com

Tráfego direto da interface do ChatGPT

Claude

claude.ai

Tráfego da interface Claude da Anthropic

Google Gemini

gemini.google.com

Tráfego do assistente de IA do Google

Microsoft Copilot

copilot.microsoft.com

Tráfego do assistente de IA do Microsoft

Microsoft Copilot

m365.cloud.microsoft

Tráfego do assistente de IA da Microsoft (serviços de nuvem do Microsoft 365)

Perplexity AI

perplexity.ai

Tráfego da pesquisa de IA com citações

META AI

meta.ai

Tráfego do assistente de IA do Meta

Detecção de parâmetro de consulta

Serviço LLM

Exemplo de URL

Parâmetro da consulta

Exemplo de valor

ChatGPT

https://www.yoursite.com/product?utm_source=chatgpt.com

utm_source

chatgpt.com

Perplexidade

https://www.yoursite.com/article?utm_source=perplexity

utm_source

perplexidade

Implementação

Você pode criar relatórios sobre o tráfego gerado pelo LLM e pela IA em uma configuração típica do Customer Journey Analytics (conexão, visualizações de dados e projetos do espaço de trabalho) por meio da configuração específica e da configuração de campos derivados, segmentos e projetos do espaço de trabalho.

Campos derivados

Para configurar métodos e sinais de detecção, use campos derivados como base. Por exemplo, defina campos derivados para identificação de agente de usuário, detecção de parâmetro de consulta e classificação de referenciador.

Identificação do agente de usuário do LLM/AI

Use as funções de campo derivado Case When para definir um campo derivado que identifica agentes de usuário LLM/AI.

Identificação do Agente do Usuário do LLM/AI {modal="regular"}

Detecção de parâmetro de consulta LLM/AI

Use as funções de campo derivado Análise de URL e Classificar para definir um campo derivado que detecte parâmetros de consulta.

Detecção de parâmetro UTM de LLM/AI {modal="regular"}

Classificação do referenciador LLM/AI

Use as funções de campo derivado Análise de URL e Classificar para definir um campo derivado que classifique referenciadores.

Classificação de Referenciador LLM/AI {modal="regular"}

Segmentos

Configure segmentos dedicados que ajudam a identificar eventos, sessões ou pessoas relacionados ao tráfego gerado pelo LLM e pela AI. Por exemplo, use os campos derivados criados anteriormente para definir um segmento que identifique o tráfego gerado pelo LLM e pela AI.

Segmento de tráfego gerado por LLM e IA {modal="regular"}

Projeto do Workspace

Use os campos e segmentos derivados para relatar e analisar o tráfego gerado pelo LLM e pela AI. Por exemplo, consulte o projeto anotado abaixo.

Projeto Workspace de tráfego gerado por LLM e IA {modal="regular"}

recommendation-more-help

080e5213-7aa2-40d6-9dba-18945e892f79