Mentre identificare i bot in un set di dati è diverso a seconda dell'ambiente, ci sono alcuni modi comuni per identificare i bot.
Puoi eseguire il pulling di un rapporto di Data Warehouse con indirizzo IP, visualizzazioni di pagina e visitatori univoci. Quindi crea un di calcolo in Excel per le visualizzazioni di pagina per visita, e ordina dal più alto al più basso. I robot hanno generalmente un numero molto elevato di visualizzazioni di pagina per visita (diverse centinaia a migliaia). Vedrete un brusco declino mentre vi spostate nel traffico reale.
I bot generalmente non hanno un URL di riferimento. Nella segmentazione questo può essere filtrato come Referring Domain equals Typed/Bookmarked
.
I bot spesso utilizzano agenti utente personalizzati che non sono classificati nella dimensione Browser o vengono visualizzati come unknown
versione di un browser standard. Safari sconosciuti e Opera sconosciuta hanno una probabilità estremamente alta di essere robot.
Non vogliamo screditare il grande sistema operativo Linux open-source, ma a quanto pare ai robot piace impostarlo come sistema operativo. Tuttavia, state attenti ad escludere il traffico legittimo dagli utenti Linux. Ai robot piace anche non impostare un sistema operativo, che può essere segmentato come Operating System ​equals Not Specified
.
Ciò vale soprattutto per il rapporto agente utente. Come si può vedere nella videata seguente, la "versione sconosciuta" di questi browser ha quasi lo stesso numero di visitatori unici (e quasi lo stesso numero di visualizzazioni di pagina). Può essere isolato nella segmentazione creando un Include contenitore per Single Page Visits equals Enabled
o Hit Depth is less than 2
.
Di solito i bot ottengono un nuovo ID visitatore ogni volta che vengono eseguiti, quindi subiscono una sola visita in assoluto e tutto il loro traffico sarà costituito da una visita numero 1.
Gli utenti moderni hanno monitor a risoluzione molto più elevata rispetto agli anni passati. Gli hit con le seguenti risoluzioni sembrano essere molto popolari per i robot:
Noterete una mancata corrispondenza tra il paese di origine e il fuso orario. Ad esempio, la posizione potrebbe essere Stati Uniti, ma il fuso orario potrebbe essere GMT.
L'utente non effettua l'accesso in alcun punto della visita e le eVar di identificazione dell'utente non persistono dalle visite precedenti. Mentre alcuni robot possono essere configurati per l'autenticazione, la maggior parte non è così intelligente.
I bot generalmente non aggiungono prodotti a un carrello o al check-out. Nella maggior parte dei casi non inviano moduli lead o altri eventi di successo, ma alcuni bot inviano moduli HTML semplici.
Talvolta i bot tentano di bloccare la cache o di interrompere in altro modo i siti colpendo URL o URL non esistenti in formato errato (come le tipiche pagine di amministrazione LAMP o Wordpress) o aggiungendo stringhe di query specifiche.
I servizi di hosting Web come Amazon Web Services o Google Cloud possono essere abusati come bot farm. Questi indirizzi IP sono ad alto rischio di essere bot:
​35.199
o 35.194​