Informe sobre el tráfico generado por LLM e IA

Este artículo de caso de uso explora cómo utilizar la capacidad Campos derivados de Customer Journey Analytics como base para informar sobre el tráfico generado por LLM (Modelo de lenguaje grande) y por IA.

NOTE
La eficacia de los métodos de detección, las firmas de detección y las estrategias de implementación depende de su método de recopilación de datos específico, la cobertura del conjunto de datos de Experience Platform y la implementación de Customer Journey Analytics. Los resultados pueden variar en función del entorno técnico, las políticas de gobernanza de datos y el enfoque de implementación. Al utilizar Experience Edge, deberá elegir entre registrar la cadena del agente de usuario sin procesar o recopilar información del dispositivo.

Métodos de detección

Para detectar el tráfico generado por LLM y por IA, distinga entre:

  • Rastreadores LLM: recopile datos para la formación y la recuperación de la generación aumentada (RAG).
  • agentes de IA: funcionan como interfaces que realizan tareas en nombre de humanos. Los agentes de IA prefieren interactuar mediante API, que evita los métodos de seguimiento de análisis web. Sin embargo, aún puede analizar una parte significativa del tráfico generado por IA a través de sitios web.

Tres métodos de detección básicos comunes para identificar y supervisar el tráfico generado por LLM y por IA son:

  • Identificación de agente de usuario: Cuando se realiza una solicitud al servidor, el encabezado HTTP User-Agent se extrae y se analiza comparándolo con patrones de agente y rastreador de IA conocidos. Este método del lado del servidor requiere acceso a los encabezados HTTP y es más eficaz cuando se implementa en la capa de recopilación de datos.
  • Clasificación de referente: el encabezado Referente HTTP contiene la dirección URL de la página web anterior que se vinculó a la solicitud actual. Este encabezado revela cuándo los usuarios hacen clic en su sitio desde interfaces web como ChatGPT o Perplexity.
  • Detección de parámetros de consulta: los servicios de IA pueden anexar parámetros de URL (especialmente parámetros de UTM) a los vínculos. Estos parámetros persisten en la dirección URL y se pueden detectar mediante implementaciones de análisis estándar, lo que convierte a estos parámetros de URL en indicadores valiosos incluso en escenarios de seguimiento del lado del cliente.

La siguiente tabla ilustra cómo se pueden utilizar los métodos de detección en diferentes escenarios de interacción de LLM e IA.

Escenario
Identificación del agente de usuario
Clasificación de referente
Detección de parámetros de consulta
Formación de un modelo
El agente (GPTBot, ClaudeBot y más) se puede identificar cuando se implementa el registro en el lado del servidor.
No es posible realizar ninguna clasificación. Los rastreadores de IA no generan referentes durante la formación.
La detección es imposible. Los rastreadores de IA no añaden parámetros durante el aprendizaje.
Exploración del agente
El agente (ChatGPT-User, claude-web) se puede identificar cuando el registro del lado del servidor captura los encabezados.
La clasificación es posible si el agente navega desde una interfaz de IA con preservación de referente.
La detección a veces es posible si el servicio de IA agrega parámetros de seguimiento.
Recuperación de generación aumentada (RAG) para responder a la consulta
El agente (OAI-SearchBot, PerplexityBot) se puede identificar con el registro del lado del servidor.
No suele ser posible realizar clasificaciones, ya que las operaciones de RAG suelen omitir los mecanismos del referente.
La detección rara vez es posible a menos que la implemente específicamente el proveedor de IA.
Clics del usuario hasta
No se puede identificar el agente. El agente de IA aparece como un agente de usuario normal.
La clasificación es posible cuando los usuarios hacen clic en los vínculos de las interfaces de IA (chat.com, claude.ai y más).
La detección es posible cuando los servicios de IA añaden parámetros de UTM a los vínculos de salida.
Condiciones de visibilidad del tráfico
Requerir integración de registro del lado del servidor con Customer Journey Analytics o etiquetado del lado del servidor para la identificación del agente.
La clasificación depende de las políticas de referente de la plataforma de IA y de la transmisión correcta del encabezado HTTP.
La detección requiere la preservación de parámetros mediante redirecciones y la recopilación de parámetros de URL adecuada.

Retos

Los agentes de LLM e IA muestran comportamientos complejos y en evolución al interactuar con propiedades digitales. Estas tecnologías funcionan de forma incoherente en todas las plataformas y versiones. Esta incoherencia crea desafíos únicos para los profesionales de los datos. Los patrones de comportamiento varían significativamente y dependen de la plataforma de IA específica, la versión y el modo de interacción utilizado. Esta diversidad operativa complica los esfuerzos por rastrear y categorizar el tráfico generado por LLM y la IA dentro de marcos de análisis estándar. La naturaleza compleja de estas interacciones, combinada con su rápida evolución, requiere métodos de detección y clasificación con matices para mantener la integridad de los datos:

  • Recopilación parcial de datos: Algunos agentes de IA más recientes ejecutan JavaScript limitado, lo que da como resultado datos de análisis incompletos para implementaciones del lado del cliente. Como resultado, algunas interacciones se rastrean, mientras que otras interacciones se omiten.
  • Datos de sesión incoherentes: los agentes de IA pueden ejecutar JavaScript de forma diferente en las sesiones o tipos de página. Esta diferencia de ejecución crea recorridos de usuario fragmentados en Customer Journey Analytics para implementaciones del lado del cliente.
  • Desafíos de detección: con el seguimiento parcial, la detección no es fiable, ya que ciertos puntos de contacto pueden ser invisibles para Analytics.

Firmas de detección

A partir de agosto de 2025, se pueden identificar las siguientes señales específicas para cada uno de los métodos de detección.

Identificación del agente de usuario

Rastreador
Cadena del agente de usuario
Objetivo/Comportamiento
GPTBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
Crawler web principal de OpenAI para entrenar modelos de ChatGPT y de idioma
ChatGPT-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Se utiliza cuando ChatGPT explora sitios web en nombre de los usuarios (heredado)
ChatGPT-User v2
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot
Versión actualizada de ChatGPT para búsqueda bajo demanda y búsquedas en respuesta
OAI-SearchBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
Crawler de ChatGPT centrado en la búsqueda para descubrir contenido
ClaudeBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com
Crawler de Anthropic para entrenar y actualizar el asistente de Claude AI
Claude-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
Apoya a los usuarios de Claude AI cuando las personas le hacen preguntas a Claude, puede acceder a sitios web usando un...
Claude-SearchBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)
Navega por la web para mejorar la calidad de los resultados de búsqueda de los usuarios de Claude AI mediante el análisis de...
PerplexityBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
El rastreador de Perplexity.ai para la indexación de datos web en tiempo real
Perplejidad-Usuario
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)
Carga páginas cuando los usuarios hacen clic en Citas de perplejidad (evita robots.txt)
Google-Extended
Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)
Crawler de Google centrado en IA para Gemini separado del Googlebot estándar
BingBot
Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)
Crawler de Microsoft que alimenta Bing Search y Bing Chat (Copilot)
DuckAssistBot
Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)
Rasca el contenido para DuckAssist, la función de respuesta de IA privada de DuckDuckGo
YouBot
Mozilla/5.0 (compatible; YouBot (+http://www.you.com))
Rastreador detrás del asistente de búsqueda y explorador de IA de You.com
meta-externalagent
Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))
Bot de Meta para recopilar datos para entrenar o ajustar LLM
Amazonbot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Crawler de Amazon para aplicaciones de búsqueda e IA
Applebot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Crawler de Apple para Spotlight, Siri y Safari
Applebot-Extended
Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)
Crawler centrado en IA de Apple para futuros modelos de IA (inclusión)
Bytespider
Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)
Recopilador de datos de IA de ByteDance para TikTok y otros servicios
MistralAI-User
Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)
El buscador de citas en tiempo real de Mistral para el asistente de "Le Chat"
cohere-ai
Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)
Recopila datos de texto para los modelos de idioma de Cohere

Clasificación de referente

Fuente
Remitente del reenvío
Tipo de tráfico
ChatGPT
chatgpt.com
Tráfico directo desde la interfaz ChatGPT
Claude
claude.ai
Tráfico desde la interfaz de Claude de Anthropic
Google Gemini
gemini.google.com
Tráfico del asistente de IA de Google
Microsoft Copilot
copilot.microsoft.com
Tráfico del asistente de IA de Microsoft
Microsoft Copilot
m365.cloud.microsoft
Tráfico del asistente de IA de Microsoft (servicios en la nube de Microsoft 365)
Perplejidad AI
perplejidad.ai
Tráfico de la búsqueda de IA con citas
META AI
meta.ai
Tráfico del asistente de IA de Meta

Detección de parámetros de consulta

Servicio LLM
URL de ejemplo
Parámetro de consulta
Valor de ejemplo
ChatGPT
https://www.yoursite.com/product?utm_source=chatgpt.com
utm_source
chatgpt.com
Perplejidad
https://www.yoursite.com/article?utm_source=perplexity
utm_source
confusión

Implementación

Puede generar informes sobre el tráfico generado por LLM y por IA en una configuración típica de Customer Journey Analytics (conexión, vistas de datos y proyectos del espacio de trabajo) mediante la configuración específica de campos derivados, segmentos y proyectos del espacio de trabajo.

Campos derivados

Para configurar métodos de detección y señales de detección, utilice campos derivados como base. Por ejemplo, defina campos derivados para identificación del agente de usuario, detección de parámetros de consulta y clasificación de referente.

Identificación de agente de usuario LLM/AI

Utilice las funciones de campo derivadas Case When para definir un campo derivado que identifique a los agentes de usuario de LLM/AI.

Identificación de agente de usuario LLM/AI {modal="regular"}

Detección de parámetros de consulta LLM/AI

Use las funciones de campo derivado de URL Parse y Classify para definir un campo derivado que detecte parámetros de consulta.

Detección de parámetros de UTM LLM/AI {modal="regular"}

Clasificación de referente de LLM/AI

Utilice las funciones de campo derivadas URL Parse y Classify para definir un campo derivado que clasifique a los referentes.

Clasificación de referente LLM/AI {modal="regular"}

Segmentos

Configure segmentos dedicados que le ayuden a identificar eventos, sesiones o personas relacionadas con el tráfico generado por LLM y IA. Por ejemplo, utilice los campos derivados que creó anteriormente para definir un segmento que identifique el tráfico generado por LLM y por IA.

Segmento de tráfico generado por LLM y IA {modal="regular"}

proyecto de Workspace

Utilice los campos y segmentos derivados para informar y analizar el tráfico generado por LLM y por IA. Por ejemplo, consulte el proyecto anotado a continuación.

Proyecto de Workspace de tráfico generado por LLM y IA {modal="regular"}

recommendation-more-help
080e5213-7aa2-40d6-9dba-18945e892f79