Rapporto su LLM e traffico generato da IA

Questo articolo del caso d’uso illustra come utilizzare la funzionalità dei campi derivati da Customer Journey Analytics come base per creare rapporti sul traffico generato da LLM (Large Language Model) e AI.

NOTE
L'efficacia dei metodi di rilevamento, delle firme di rilevamento e delle strategie di implementazione dipende dal metodo di raccolta dati specifico, dalla copertura del set di dati di Experience Platform e dall'implementazione di Customer Journey Analytics. I risultati possono variare in base all’ambiente tecnico, alle politiche di governance dei dati e all’approccio di implementazione. Quando utilizzi Experience Edge, devi scegliere se registrare la stringa non elaborata dell’agente utente o raccogliere le informazioni sul dispositivo.

Metodi di rilevamento

Per rilevare il traffico generato da LLM e AI, distingui tra:

  • LLM crawler: raccogli i dati per l'addestramento e il recupero di generazione aumentata (RAG).
  • Agenti AI: fungono da interfacce che eseguono attività per conto di utenti umani. Gli agenti di intelligenza artificiale preferiscono interagire tramite API, ignorando così i metodi di tracciamento dell’analisi web. Tuttavia, puoi ancora analizzare una parte significativa del traffico generato dall’intelligenza artificiale tramite i siti web.

Tre metodi comuni di rilevamento di base per identificare e monitorare il traffico generato da LLM e AI sono:

  • Identificazione dell'agente utente: quando viene effettuata una richiesta al server, l'intestazione dell'agente utente HTTP viene estratta e analizzata in base ai pattern noti dell'agente e del crawler di IA. Questo metodo lato server richiede l’accesso alle intestazioni HTTP ed è più efficace se implementato a livello di raccolta dati.
  • Classificazione del referente: l'intestazione del referente HTTP contiene l'URL della pagina Web precedente collegata alla richiesta corrente. Questa intestazione mostra quando gli utenti fanno clic sul tuo sito da interfacce web come ChatGPT o Perplexity.
  • Rilevamento parametri di query: i servizi di IA possono aggiungere parametri URL (in particolare parametri UTM) ai collegamenti. Questi parametri persistono nell’URL e possono essere rilevati tramite implementazioni di analisi standard, rendendo questi parametri URL indicatori preziosi anche in scenari di tracciamento lato client.

La tabella seguente illustra come i metodi di rilevamento possono essere utilizzati in diversi scenari di interazione LLM e AI.

Scenario
Identificazione dell’agente utente
Classificazione referrer
Rilevamento dei parametri di query
Apprendimento di un modello
L'agente (GPTBot, ClaudeBot e altro) può essere identificato quando viene implementata la registrazione lato server.
Non è possibile alcuna classificazione. I crawler basati su IA non generano referrer durante l’apprendimento.
Rilevamento impossibile. I crawler basati su IA non aggiungono parametri durante l’apprendimento.
Esplorazione agente
L'agente (ChatGPT-User, claude-web) può essere identificato quando la registrazione lato server acquisisce le intestazioni.
La classificazione è possibile se l’agente passa da un’interfaccia IA con conservazione del referente.
Il rilevamento è talvolta possibile se il servizio AI aggiunge parametri di tracciamento.
Recupero della generazione aumentata (RAG) per rispondere alla query
L'agente (OAI-SearchBot, PerplexityBot) può essere identificato con la registrazione lato server.
In genere non è possibile effettuare alcuna classificazione, in quanto le operazioni RAG spesso ignorano i meccanismi di riferimento.
Il rilevamento è raramente possibile se non specificamente implementato dal provider di IA.
L'utente fa clic su
Impossibile identificare l'agente. L’agente di IA viene visualizzato come un normale agente utente.
La classificazione è possibile quando gli utenti fanno clic sui collegamenti dalle interfacce di intelligenza artificiale (chatgpt.com, claude.ai e altro).
Il rilevamento è possibile quando i servizi di intelligenza artificiale aggiungono parametri UTM ai collegamenti in uscita.
Condizioni di visibilità del traffico
Richiedi integrazione di registrazione lato server con Customer Journey Analytics o assegnazione di tag lato server per l’identificazione dell’agente.
La classificazione dipende dai criteri del referente della piattaforma di intelligenza artificiale e dalla corretta trasmissione delle intestazioni HTTP.
Il rilevamento richiede la conservazione dei parametri tramite reindirizzamenti e la corretta raccolta di parametri URL.

Sfide

Gli agenti LLM e AI mostrano comportamenti complessi e in evoluzione durante l’interazione con le proprietà digitali. Queste tecnologie operano in modo incoerente su più piattaforme e versioni. Questa incoerenza crea problemi unici per i professionisti dei dati. I modelli comportamentali variano in modo significativo e dipendono dalla piattaforma di intelligenza artificiale, dalla versione e dalla modalità di interazione utilizzate. Questa diversità operativa complica gli sforzi per tenere traccia e classificare il traffico generato da LLM e dall’intelligenza artificiale all’interno dei framework di analisi standard. La natura complessa di queste interazioni, combinata con la loro rapida evoluzione, richiede metodi di rilevamento e classificazione sfumati per mantenere l’integrità dei dati:

  • Raccolta dati parziale: alcuni agenti di intelligenza artificiale più recenti eseguono JavaScript con limiti, causando dati di analisi incompleti per le implementazioni lato client. Di conseguenza, alcune interazioni vengono tracciate, mentre altre vengono ignorate.
  • Dati della sessione incoerenti: gli agenti di IA potrebbero eseguire JavaScript in modo diverso nelle sessioni o nei tipi di pagina. Questa differenza di esecuzione crea percorsi di utenti frammentati in Customer Journey Analytics per le implementazioni lato client.
  • Problemi di rilevamento: con il tracciamento parziale, il rilevamento diventa inaffidabile in quanto alcuni punti di contatto potrebbero essere invisibili ad Analytics.

Firme di rilevamento

A partire da agosto 2025, per ciascuno dei metodi di rilevamento possono essere identificati i seguenti segnali specifici.

Identificazione dell’agente utente

Crawler
Stringa agente utente
Finalità/Comportamento
GPTBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
Web crawler principale di OpenAI per la formazione di ChatGPT e modelli di linguaggio
ChatGPT-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Utilizzato quando ChatGPT naviga sui siti web per conto degli utenti (legacy)
ChatGPT-User v2
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot
Versione aggiornata di ChatGPT per il recupero su richiesta e le ricerche in risposta
OAI-SearchBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
Crawler di ChatGPT incentrato sulla ricerca per individuare contenuti
ClaudeBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com
Crawler antropico per l'addestramento e l'aggiornamento dell'assistente Claude AI
Claude-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
Supporta Claude AI utenti quando gli individui fanno domande a Claude, può accedere ai siti web utilizzando un Cl...
Claude-SearchBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +Claude-SearchBot@anthropic.com)
Naviga sul web per migliorare la qualità dei risultati di ricerca per gli utenti Claude AI analizzando il contenuto...
PerplexityBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Crawler di Perplexity.ai per l’indicizzazione dei dati web in tempo reale
Perplessità-Utente
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent)
Carica le pagine quando gli utenti fanno clic sulle citazioni di Perplessità (ignora robots.txt)
Google - Esteso
Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)
Crawler Google incentrato sull'intelligenza artificiale per Gemini separato da Googlebot standard
BingBot
Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)
Crawler Microsoft che alimenta Bing Search e Bing Chat (Copilot)
DuckAssistBot
Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)
Elimina contenuto per DuckAssist, funzionalità di risposta di IA privata di DuckDuckGo
YouBot
Mozilla/5.0 (compatible; YouBot (+http://www.you.com))
Crawler dietro la ricerca AI di You.com e assistente del browser
meta-externalagent
Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))
bot di Meta per la raccolta di dati per addestrare o perfezionare i moduli LLM
Amazonbot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Crawler di Amazon per applicazioni di ricerca e IA
Applebot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Crawler Apple per Spotlight, Siri e Safari
Applebot-Extended
Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)
Crawler incentrato sull’intelligenza artificiale di Apple per i futuri modelli di intelligenza artificiale (consenso)
Bytespider
Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)
Raccolta di dati di IA di ByteDance per TikTok e altri servizi
Utente MistralAI
Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot)
Recupero della citazione in tempo reale di Mistral per l’assistente di "Le Chat"
cohere-ai
Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)
Raccoglie dati testuali per i modelli di linguaggio Cohere

Classificazione referrer

Origine
Pagina di provenienza
Tipo di traffico
ChatGPT
chatgpt.com
Traffico diretto dall’interfaccia ChatGPT
Claude
claude.ai
Traffico dall'interfaccia Claude di Anthropic
Google Gemini
gemini.google.com
Traffico dall’assistente AI di Google
Copilota Microsoft
copilot.microsoft.com
Traffico dall’assistente AI di Microsoft
Copilota Microsoft
m365.cloud.microsoft
Traffico dall’assistente AI di Microsoft (Microsoft 365 Cloud Services)
IA perplessità
perplexity.ai
Traffico da ricerca IA con citazioni
META AI
meta.ai
Traffico dall’assistente AI di Meta

Rilevamento dei parametri di query

Servizio LLM
URL di esempio
Parametro query
Esempio di valore
ChatGPT
https://www.yoursite.com/product?utm_source=chatgpt.com
utm_source
chatgpt.com
Perplessità
https://www.yoursite.com/article?utm_source=perplexity
utm_source
perplessità

Implementazione

È possibile creare rapporti sul traffico generato da LLM e AI all'interno di una tipica configurazione di Customer Journey Analytics (connessione, visualizzazioni dati e progetti Workspace) tramite la configurazione specifica di campi derivati, segmenti e progetti Workspace.

Campi derivati

Per configurare i metodi di rilevamento e i segnali di rilevamento, utilizza i campi derivati come base. Ad esempio, definisci i campi derivati per identificazione agente utente, rilevamento parametri query e classificazione referrer.

Identificazione dell’agente utente LLM/AI

Utilizza le funzioni di campo derivato Case When per definire un campo derivato che identifica gli agenti utente LLM/AI.

Identificazione agente utente LLM/AI {modal="regular"}

Rilevamento parametri query LLM/AI

Utilizza le funzioni di campo derivato URL Parse e Classify per definire un campo derivato che rileva i parametri di query.

Rilevamento parametri LLM/AI UTM {modal="regular"}

Classificazione del referente LLM/AI

Utilizza le funzioni di campo derivato URL Parse e Classify per definire un campo derivato che classifica i referenti.

LLM/Classificazione referrer AI {modal="regular"}

Segmenti

Configura segmenti dedicati che ti aiutano a identificare eventi, sessioni o persone correlati al traffico generato da LLM e AI. Ad esempio, utilizza i campi derivati creati in precedenza per definire un segmento che identifica il traffico generato da LLM e AI.

LLM e segmento di traffico generato da IA {modal="regular"}

progetto Workspace

Utilizza i campi e i segmenti derivati per generare rapporti e analisi sul traffico generato da LLM e AI. Ad esempio, consulta il progetto annotato di seguito.

Progetto Workspace per traffico generato da LLM e AI {modal="regular"}

recommendation-more-help
080e5213-7aa2-40d6-9dba-18945e892f79