Rapporto su LLM e traffico generato da IA
Questo articolo del caso d’uso illustra come utilizzare la funzionalità dei campi derivati da Customer Journey Analytics come base per creare rapporti sul traffico generato da LLM (Large Language Model) e AI.
Metodi di rilevamento
Per rilevare il traffico generato da LLM e AI, distingui tra:
- LLM crawler: raccogli i dati per l'addestramento e il recupero di generazione aumentata (RAG).
- Agenti AI: fungono da interfacce che eseguono attività per conto di utenti umani. Gli agenti di intelligenza artificiale preferiscono interagire tramite API, ignorando così i metodi di tracciamento dell’analisi web. Tuttavia, puoi ancora analizzare una parte significativa del traffico generato dall’intelligenza artificiale tramite i siti web.
Tre metodi comuni di rilevamento di base per identificare e monitorare il traffico generato da LLM e AI sono:
- Identificazione dell'agente utente: quando viene effettuata una richiesta al server, l'intestazione dell'agente utente HTTP viene estratta e analizzata in base ai pattern noti dell'agente e del crawler di IA. Questo metodo lato server richiede l’accesso alle intestazioni HTTP ed è più efficace se implementato a livello di raccolta dati.
- Classificazione del referente: l'intestazione del referente HTTP contiene l'URL della pagina Web precedente collegata alla richiesta corrente. Questa intestazione mostra quando gli utenti fanno clic sul tuo sito da interfacce web come ChatGPT o Perplexity.
- Rilevamento parametri di query: i servizi di IA possono aggiungere parametri URL (in particolare parametri UTM) ai collegamenti. Questi parametri persistono nell’URL e possono essere rilevati tramite implementazioni di analisi standard, rendendo questi parametri URL indicatori preziosi anche in scenari di tracciamento lato client.
La tabella seguente illustra come i metodi di rilevamento possono essere utilizzati in diversi scenari di interazione LLM e AI.
GPTBot
, ClaudeBot
e altro) può essere identificato quando viene implementata la registrazione lato server.ChatGPT-User
, claude-web
) può essere identificato quando la registrazione lato server acquisisce le intestazioni.OAI-SearchBot
, PerplexityBot
) può essere identificato con la registrazione lato server.Sfide
Gli agenti LLM e AI mostrano comportamenti complessi e in evoluzione durante l’interazione con le proprietà digitali. Queste tecnologie operano in modo incoerente su più piattaforme e versioni. Questa incoerenza crea problemi unici per i professionisti dei dati. I modelli comportamentali variano in modo significativo e dipendono dalla piattaforma di intelligenza artificiale, dalla versione e dalla modalità di interazione utilizzate. Questa diversità operativa complica gli sforzi per tenere traccia e classificare il traffico generato da LLM e dall’intelligenza artificiale all’interno dei framework di analisi standard. La natura complessa di queste interazioni, combinata con la loro rapida evoluzione, richiede metodi di rilevamento e classificazione sfumati per mantenere l’integrità dei dati:
- Raccolta dati parziale: alcuni agenti di intelligenza artificiale più recenti eseguono JavaScript con limiti, causando dati di analisi incompleti per le implementazioni lato client. Di conseguenza, alcune interazioni vengono tracciate, mentre altre vengono ignorate.
- Dati della sessione incoerenti: gli agenti di IA potrebbero eseguire JavaScript in modo diverso nelle sessioni o nei tipi di pagina. Questa differenza di esecuzione crea percorsi di utenti frammentati in Customer Journey Analytics per le implementazioni lato client.
- Problemi di rilevamento: con il tracciamento parziale, il rilevamento diventa inaffidabile in quanto alcuni punti di contatto potrebbero essere invisibili ad Analytics.
Firme di rilevamento
A partire da agosto 2025, per ciascuno dei metodi di rilevamento possono essere identificati i seguenti segnali specifici.
Identificazione dell’agente utente
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)
Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)
Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)
Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)
Mozilla/5.0 (compatible; YouBot (+http://www.you.com))
Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)
Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)
Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)
Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)
Classificazione referrer
Rilevamento dei parametri di query
Implementazione
È possibile creare rapporti sul traffico generato da LLM e AI all'interno di una tipica configurazione di Customer Journey Analytics (connessione, visualizzazioni dati e progetti Workspace) tramite la configurazione specifica di campi derivati, segmenti e progetti Workspace.
Campi derivati
Per configurare i metodi di rilevamento e i segnali di rilevamento, utilizza i campi derivati come base. Ad esempio, definisci i campi derivati per identificazione agente utente, rilevamento parametri query e classificazione referrer.
Identificazione dell’agente utente LLM/AI
Utilizza le funzioni di campo derivato Case When per definire un campo derivato che identifica gli agenti utente LLM/AI.
Rilevamento parametri query LLM/AI
Utilizza le funzioni di campo derivato URL Parse e Classify per definire un campo derivato che rileva i parametri di query.
Classificazione del referente LLM/AI
Utilizza le funzioni di campo derivato URL Parse e Classify per definire un campo derivato che classifica i referenti.
Segmenti
Configura segmenti dedicati che ti aiutano a identificare eventi, sessioni o persone correlati al traffico generato da LLM e AI. Ad esempio, utilizza i campi derivati creati in precedenza per definire un segmento che identifica il traffico generato da LLM e AI.
progetto Workspace
Utilizza i campi e i segmenti derivati per generare rapporti e analisi sul traffico generato da LLM e AI. Ad esempio, consulta il progetto annotato di seguito.