Informe sobre el tráfico generado por LLM e IA
Este artículo de caso de uso explora cómo utilizar la capacidad Campos derivados de Customer Journey Analytics como base para informar sobre el tráfico generado por LLM (Modelo de lenguaje grande) y por IA.
Métodos de detección
Para detectar el tráfico generado por LLM y por IA, distinga entre:
- Rastreadores LLM: recopile datos para la formación y la recuperación de la generación aumentada (RAG).
- agentes de IA: funcionan como interfaces que realizan tareas en nombre de humanos. Los agentes de IA prefieren interactuar mediante API, que evita los métodos de seguimiento de análisis web. Sin embargo, aún puede analizar una parte significativa del tráfico generado por IA a través de sitios web.
Tres métodos de detección básicos comunes para identificar y supervisar el tráfico generado por LLM y por IA son:
- Identificación de agente de usuario: Cuando se realiza una solicitud al servidor, el encabezado HTTP User-Agent se extrae y se analiza comparándolo con patrones de agente y rastreador de IA conocidos. Este método del lado del servidor requiere acceso a los encabezados HTTP y es más eficaz cuando se implementa en la capa de recopilación de datos.
- Clasificación de referente: el encabezado Referente HTTP contiene la dirección URL de la página web anterior que se vinculó a la solicitud actual. Este encabezado revela cuándo los usuarios hacen clic en su sitio desde interfaces web como ChatGPT o Perplexity.
- Detección de parámetros de consulta: los servicios de IA pueden anexar parámetros de URL (especialmente parámetros de UTM) a los vínculos. Estos parámetros persisten en la dirección URL y se pueden detectar mediante implementaciones de análisis estándar, lo que convierte a estos parámetros de URL en indicadores valiosos incluso en escenarios de seguimiento del lado del cliente.
La siguiente tabla ilustra cómo se pueden utilizar los métodos de detección en diferentes escenarios de interacción de LLM e IA.
GPTBot, ClaudeBot y más) se puede identificar cuando se implementa el registro en el lado del servidor.ChatGPT-User, claude-web) se puede identificar cuando el registro del lado del servidor captura los encabezados.OAI-SearchBot, PerplexityBot) se puede identificar con el registro del lado del servidor.Retos
Los agentes de LLM e IA muestran comportamientos complejos y en evolución al interactuar con propiedades digitales. Estas tecnologías funcionan de forma incoherente en todas las plataformas y versiones. Esta incoherencia crea desafíos únicos para los profesionales de los datos. Los patrones de comportamiento varían significativamente y dependen de la plataforma de IA específica, la versión y el modo de interacción utilizado. Esta diversidad operativa complica los esfuerzos por rastrear y categorizar el tráfico generado por LLM y la IA dentro de marcos de análisis estándar. La naturaleza compleja de estas interacciones, combinada con su rápida evolución, requiere métodos de detección y clasificación con matices para mantener la integridad de los datos:
- Recopilación parcial de datos: Algunos agentes de IA más recientes ejecutan JavaScript limitado, lo que da como resultado datos de análisis incompletos para implementaciones del lado del cliente. Como resultado, algunas interacciones se rastrean, mientras que otras interacciones se omiten.
- Datos de sesión incoherentes: los agentes de IA pueden ejecutar JavaScript de forma diferente en las sesiones o tipos de página. Esta diferencia de ejecución crea recorridos de usuario fragmentados en Customer Journey Analytics para implementaciones del lado del cliente.
- Desafíos de detección: con el seguimiento parcial, la detección no es fiable, ya que ciertos puntos de contacto pueden ser invisibles para Analytics.
Firmas de detección
A partir de agosto de 2025, se pueden identificar las siguientes señales específicas para cada uno de los métodos de detección.
Identificación del agente de usuario
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbotMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/botMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/botMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbotMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.comMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)Mozilla/5.0 (compatible; YouBot (+http://www.you.com))Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)Clasificación de referente
Detección de parámetros de consulta
Implementación
Puede generar informes sobre el tráfico generado por LLM y por IA en una configuración típica de Customer Journey Analytics (conexión, vistas de datos y proyectos del espacio de trabajo) mediante la configuración específica de campos derivados, segmentos y proyectos del espacio de trabajo.
Campos derivados
Para configurar métodos de detección y señales de detección, utilice campos derivados como base. Por ejemplo, defina campos derivados para identificación del agente de usuario, detección de parámetros de consulta y clasificación de referente.
Identificación de agente de usuario LLM/AI
Utilice las funciones de campo derivadas Case When para definir un campo derivado que identifique a los agentes de usuario de LLM/AI.
           
          
Detección de parámetros de consulta LLM/AI
Use las funciones de campo derivado de URL Parse y Classify para definir un campo derivado que detecte parámetros de consulta.
           
          
Clasificación de referente de LLM/AI
Utilice las funciones de campo derivadas URL Parse y Classify para definir un campo derivado que clasifique a los referentes.
           
          
Segmentos
Configure segmentos dedicados que le ayuden a identificar eventos, sesiones o personas relacionadas con el tráfico generado por LLM y IA. Por ejemplo, utilice los campos derivados que creó anteriormente para definir un segmento que identifique el tráfico generado por LLM y por IA.
           
          
proyecto de Workspace
Utilice los campos y segmentos derivados para informar y analizar el tráfico generado por LLM y por IA. Por ejemplo, consulte el proyecto anotado a continuación.
          