Documentación Customer Journey Analytics Guía de Customer Journey Analytics

Informe sobre el tráfico generado por LLM e IA

Last update: Tue Dec 02 2025 00:00:00 GMT+0000 (Coordinated Universal Time)

Temas:

Creado para:

Usuario

Este artículo de caso de uso explora cómo utilizar la capacidad Campos derivados de Customer Journey Analytics como base para informar sobre el tráfico generado por LLM (Modelo de lenguaje grande) y por IA.

NOTE

La eficacia de los métodos de detección, las firmas de detección y las estrategias de implementación depende de su método de recopilación de datos específico, la cobertura del conjunto de datos de Experience Platform y la implementación de Customer Journey Analytics. Los resultados pueden variar en función del entorno técnico, las políticas de gobernanza de datos y el enfoque de implementación. Al utilizar Experience Edge, deberá elegir entre registrar la cadena del agente de usuario sin procesar o recopilar información del dispositivo.

Métodos de detección

Para detectar el tráfico generado por LLM y por IA, distinga entre:

Rastreadores LLM: recopile datos para la formación y la recuperación de la generación aumentada (RAG).
agentes de IA: funcionan como interfaces que realizan tareas en nombre de humanos. Los agentes de IA prefieren interactuar mediante API, que evita los métodos de seguimiento de análisis web. Sin embargo, aún puede analizar una parte significativa del tráfico generado por IA a través de sitios web.

Tres métodos de detección básicos comunes para identificar y supervisar el tráfico generado por LLM y por IA son:

Identificación de agente de usuario: Cuando se realiza una solicitud al servidor, el encabezado HTTP User-Agent se extrae y se analiza comparándolo con patrones de agente y rastreador de IA conocidos. Este método del lado del servidor requiere acceso a los encabezados HTTP y es más eficaz cuando se implementa en la capa de recopilación de datos.
Clasificación de referente: el encabezado Referente HTTP contiene la dirección URL de la página web anterior que se vinculó a la solicitud actual. Este encabezado revela cuándo los usuarios hacen clic en su sitio desde interfaces web como ChatGPT o Perplexity.
Detección de parámetros de consulta: los servicios de IA pueden anexar parámetros de URL (especialmente parámetros de UTM) a los vínculos. Estos parámetros persisten en la dirección URL y se pueden detectar mediante implementaciones de análisis estándar, lo que convierte a estos parámetros de URL en indicadores valiosos incluso en escenarios de seguimiento del lado del cliente.

La siguiente tabla ilustra cómo se pueden utilizar los métodos de detección en diferentes escenarios de interacción de LLM e IA.

Escenario

Identificación del agente de usuario

Clasificación de referente

Detección de parámetros de consulta

Formación de un modelo

El agente (GPTBot, ClaudeBot y más) se puede identificar cuando se implementa el registro en el lado del servidor.

No es posible realizar ninguna clasificación. Los rastreadores de IA no generan referentes durante la formación.

La detección es imposible. Los rastreadores de IA no añaden parámetros durante el aprendizaje.

Exploración del agente

El agente (ChatGPT-User, claude-web) se puede identificar cuando el registro del lado del servidor captura los encabezados.

La clasificación es posible si el agente navega desde una interfaz de IA con preservación de referente.

La detección a veces es posible si el servicio de IA agrega parámetros de seguimiento.

Recuperación de generación aumentada (RAG) para responder a la consulta

El agente (OAI-SearchBot, PerplexityBot) se puede identificar con el registro del lado del servidor.

No suele ser posible realizar clasificaciones, ya que las operaciones de RAG suelen omitir los mecanismos del referente.

La detección rara vez es posible a menos que la implemente específicamente el proveedor de IA.

Clics del usuario hasta

No se puede identificar el agente. El agente de IA aparece como un agente de usuario normal.

La clasificación es posible cuando los usuarios hacen clic en los vínculos de las interfaces de IA (chat.com, claude.ai y más).

La detección es posible cuando los servicios de IA añaden parámetros de UTM a los vínculos de salida.

Condiciones de visibilidad del tráfico

Requerir integración de registro del lado del servidor con Customer Journey Analytics o etiquetado del lado del servidor para la identificación del agente.

La clasificación depende de las políticas de referente de la plataforma de IA y de la transmisión correcta del encabezado HTTP.

La detección requiere la preservación de parámetros mediante redirecciones y la recopilación de parámetros de URL adecuada.

Retos

Los agentes de LLM e IA muestran comportamientos complejos y en evolución al interactuar con propiedades digitales. Estas tecnologías funcionan de forma incoherente en todas las plataformas y versiones. Esta incoherencia crea desafíos únicos para los profesionales de los datos. Los patrones de comportamiento varían significativamente y dependen de la plataforma de IA específica, la versión y el modo de interacción utilizado. Esta diversidad operativa complica los esfuerzos por rastrear y categorizar el tráfico generado por LLM y la IA dentro de marcos de análisis estándar. La naturaleza compleja de estas interacciones, combinada con su rápida evolución, requiere métodos de detección y clasificación con matices para mantener la integridad de los datos:

Recopilación parcial de datos: Algunos agentes de IA más recientes ejecutan JavaScript limitado, lo que da como resultado datos de análisis incompletos para implementaciones del lado del cliente. Como resultado, algunas interacciones se rastrean, mientras que otras interacciones se omiten.
Datos de sesión incoherentes: los agentes de IA pueden ejecutar JavaScript de forma diferente en las sesiones o tipos de página. Esta diferencia de ejecución crea recorridos de usuario fragmentados en Customer Journey Analytics para implementaciones del lado del cliente.
Desafíos de detección: con el seguimiento parcial, la detección no es fiable, ya que ciertos puntos de contacto pueden ser invisibles para Analytics.

Firmas de detección

A partir de agosto de 2025, se pueden identificar las siguientes señales específicas para cada uno de los métodos de detección.

Identificación del agente de usuario

Rastreador

Cadena del agente de usuario

Objetivo/Comportamiento

GPTBot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot

Crawler web principal de OpenAI para entrenar modelos de ChatGPT y de idioma

ChatGPT-User

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

Se utiliza cuando ChatGPT explora sitios web en nombre de los usuarios (heredado)

ChatGPT-User v2

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot

Versión actualizada de ChatGPT para búsqueda bajo demanda y búsquedas en respuesta

OAI-SearchBot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot

Crawler de ChatGPT centrado en la búsqueda para descubrir contenido

ClaudeBot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com

Crawler de Anthropic para entrenar y actualizar el asistente de Claude AI

Claude-User

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)

Apoya a los usuarios de Claude AI cuando las personas le hacen preguntas a Claude, puede acceder a sitios web usando un...

Claude-SearchBot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)

Navega por la web para mejorar la calidad de los resultados de búsqueda de los usuarios de Claude AI mediante el análisis de...

PerplexityBot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)

El rastreador de Perplexity.ai para la indexación de datos web en tiempo real

Perplejidad-Usuario

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)

Carga páginas cuando los usuarios hacen clic en Citas de perplejidad (evita robots.txt)

Google-Extended

Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)

Crawler de Google centrado en IA para Gemini separado del Googlebot estándar

BingBot

Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)

Crawler de Microsoft que alimenta Bing Search y Bing Chat (Copilot)

DuckAssistBot

Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)

Rasca el contenido para DuckAssist, la función de respuesta de IA privada de DuckDuckGo

YouBot

Mozilla/5.0 (compatible; YouBot (+http://www.you.com))

Rastreador detrás del asistente de búsqueda y explorador de IA de You.com

meta-externalagent

Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))

Bot de Meta para recopilar datos para entrenar o ajustar LLM

Amazonbot

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Crawler de Amazon para aplicaciones de búsqueda e IA

Applebot

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)

Crawler de Apple para Spotlight, Siri y Safari

Applebot-Extended

Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)

Crawler centrado en IA de Apple para futuros modelos de IA (inclusión)

Bytespider

Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)

Recopilador de datos de IA de ByteDance para TikTok y otros servicios

MistralAI-User

Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)

El buscador de citas en tiempo real de Mistral para el asistente de "Le Chat"

cohere-ai

Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)

Recopila datos de texto para los modelos de idioma de Cohere

Clasificación de referente

Fuente

Remitente del reenvío

Tipo de tráfico

ChatGPT

chatgpt.com

Tráfico directo desde la interfaz ChatGPT

Claude

claude.ai

Tráfico desde la interfaz de Claude de Anthropic

Google Gemini

gemini.google.com

Tráfico del asistente de IA de Google

Microsoft Copilot

copilot.microsoft.com

Tráfico del asistente de IA de Microsoft

Microsoft Copilot

m365.cloud.microsoft

Tráfico del asistente de IA de Microsoft (servicios en la nube de Microsoft 365)

Perplejidad AI

perplejidad.ai

Tráfico de la búsqueda de IA con citas

META AI

meta.ai

Tráfico del asistente de IA de Meta

Detección de parámetros de consulta

Servicio LLM

URL de ejemplo

Parámetro de consulta

Valor de ejemplo

ChatGPT

https://www.yoursite.com/product?utm_source=chatgpt.com

utm_source

chatgpt.com

Perplejidad

https://www.yoursite.com/article?utm_source=perplexity

utm_source

confusión

Implementación

Puede generar informes sobre el tráfico generado por LLM y por IA en una configuración típica de Customer Journey Analytics (conexión, vistas de datos y proyectos del espacio de trabajo) mediante la configuración específica de campos derivados, segmentos y proyectos del espacio de trabajo.

Campos derivados

Para configurar métodos de detección y señales de detección, utilice campos derivados como base. Por ejemplo, defina campos derivados para identificación del agente de usuario, detección de parámetros de consulta y clasificación de referente.

Identificación de agente de usuario LLM/AI

Utilice las funciones de campo derivadas Case When para definir un campo derivado que identifique a los agentes de usuario de LLM/AI.

Identificación de agente de usuario LLM/AI {modal="regular"}

Detección de parámetros de consulta LLM/AI

Use las funciones de campo derivado de URL Parse y Classify para definir un campo derivado que detecte parámetros de consulta.

Detección de parámetros de UTM LLM/AI {modal="regular"}

Clasificación de referente de LLM/AI

Utilice las funciones de campo derivadas URL Parse y Classify para definir un campo derivado que clasifique a los referentes.

Clasificación de referente LLM/AI {modal="regular"}

Segmentos

Configure segmentos dedicados que le ayuden a identificar eventos, sesiones o personas relacionadas con el tráfico generado por LLM y IA. Por ejemplo, utilice los campos derivados que creó anteriormente para definir un segmento que identifique el tráfico generado por LLM y por IA.

Segmento de tráfico generado por LLM y IA {modal="regular"}

proyecto de Workspace

Utilice los campos y segmentos derivados para informar y analizar el tráfico generado por LLM y por IA. Por ejemplo, consulte el proyecto anotado a continuación.

Proyecto de Workspace de tráfico generado por LLM y IA {modal="regular"}

recommendation-more-help

080e5213-7aa2-40d6-9dba-18945e892f79