Firme bot comuni

Mentre identificare i bot in un set di dati è diverso a seconda dell'ambiente, ci sono alcuni modi comuni per identificare i bot.

Numero elevato di visualizzazioni di pagina per visita

Puoi eseguire il pulling di un rapporto di Data Warehouse con indirizzo IP, visualizzazioni di pagina e visitatori univoci. Quindi crea un ​ di calcolo ​ in Excel per le visualizzazioni di pagina per visita, e ordina dal più alto al più basso. I robot hanno generalmente un numero molto elevato di visualizzazioni di pagina per visita (diverse centinaia a migliaia). Vedrete un brusco declino mentre vi spostate nel traffico reale.

Nessun referrer

I bot generalmente non hanno un URL di riferimento. Nella segmentazione questo può essere filtrato come Referring Domain equals Typed/Bookmarked.

Strani Agenti Utente

I bot spesso utilizzano agenti utente personalizzati che non sono classificati nella dimensione Browser o vengono visualizzati come unknown versione di un browser standard. Safari sconosciuti e Opera sconosciuta hanno una probabilità estremamente alta di essere robot.

Sistemi operativi Linux o "Non specificati"

Non vogliamo screditare il grande sistema operativo Linux open-source, ma a quanto pare ai robot piace impostarlo come sistema operativo. Tuttavia, state attenti ad escludere il traffico legittimo dagli utenti Linux. Ai robot piace anche non impostare un sistema operativo, che può essere segmentato come Operating System ​equals Not Specified.

Visualizzazioni pagina = Visite = Visitatori univoci

Ciò vale soprattutto per il rapporto agente utente. Come si può vedere nella videata seguente, la "versione sconosciuta" di questi browser ha quasi lo stesso numero di visitatori unici (e quasi lo stesso numero di visualizzazioni di pagina). Può essere isolato nella segmentazione creando un Include contenitore per Single Page Visits equals Enabled o Hit Depth is less than 2.

Numero visita di 1

Di solito i bot ottengono un nuovo ID visitatore ogni volta che vengono eseguiti, quindi subiscono una sola visita in assoluto e tutto il loro traffico sarà costituito da una visita numero 1.

Risoluzione monitor inferiore

Gli utenti moderni hanno monitor a risoluzione molto più elevata rispetto agli anni passati. Gli hit con le seguenti risoluzioni sembrano essere molto popolari per i robot:

  • ​ 1024x768 ​
  • 1366 x 768
  • 1600 x 864
  • 800 x 600
  • 1600 x 1200
  • Non specificato
  • 1024x667

Paese + Fuso orario non corrispondente

Noterete una mancata corrispondenza tra il paese di origine e il fuso orario. Ad esempio, la posizione potrebbe essere Stati Uniti, ma il fuso orario potrebbe essere GMT.

Accesso non effettuato

L'utente non effettua l'accesso in alcun punto della visita e le eVar di identificazione dell'utente non persistono dalle visite precedenti. Mentre alcuni robot possono essere configurati per l'autenticazione, la maggior parte non è così intelligente.

Nessun indicatore KPI nella visita

I bot generalmente non aggiungono prodotti a un carrello o al check-out. Nella maggior parte dei casi non inviano moduli lead o altri eventi di successo, ma alcuni bot inviano moduli HTML semplici. ​

Stringa query specifica presente

Talvolta i bot tentano di bloccare la cache o di interrompere in altro modo i siti colpendo URL o URL non esistenti in formato errato (come le tipiche pagine di amministrazione LAMP o Wordpress) o aggiungendo stringhe di query specifiche.

Indirizzi IP che provengono da piattaforme informatiche distribuite

I servizi di hosting Web come Amazon Web Services o Google Cloud possono essere abusati come bot farm. Questi indirizzi IP sono ad alto rischio di essere bot:

  • Google Cloud: L'indirizzo IP inizia con ​35.199 o 35.194​

In questa pagina