Embora a identificação de bots em um conjunto de dados seja diferente dependendo do ambiente, estas são algumas maneiras comuns de identificar bots.
Você pode obter um relatório do Data Warehouse com endereço IP, exibições de página e visitantes únicos. Em seguida, crie um cálculo no Excel para exibições de página por visita e classifique do mais alto para o mais baixo. Os bots geralmente têm um número muito alto de exibições de página por visita (várias centenas a milhares). Você verá um declínio acentuado à medida que passar para o tráfego real.
Os bots normalmente não têm um URL de referência. Na segmentação, pode ser filtrado como Referring Domain equals Typed/Bookmarked
.
Os bots geralmente usam agentes de usuário personalizados que não são classificados na dimensão Navegadores ou exibidos como uma versão unknown
de um navegador padrão. O Safari desconhecido e o Opera desconhecido têm uma probabilidade extremamente alta de serem bots.
Não queremos desacreditar o grande sistema operacional Linux de código aberto, mas aparentemente os bots gostam de defini-lo como seu sistema operacional. No entanto, tenha cuidado com a exclusão de tráfego legítimo de usuários do Linux. Os bots também gostam de não definir um sistema operacional, que pode ser segmentado como Operating System ​equals Not Specified
.
Isso se aplica especialmente ao relatório do agente do usuário. Como você pode ver na captura de tela abaixo, a "versão desconhecida" desses navegadores tem quase o mesmo número de visitantes que visitantes únicos (e quase o mesmo número de exibições de página). Isso pode ser isolado na segmentação por meio da criação de um container Incluir para Single Page Visits equals Enabled
ou Hit Depth is less than 2
.
Os bots geralmente recebem uma nova ID de visitante sempre que são executados, incorrendo assim em apenas uma visita, e todo o tráfego consiste em uma visita.
Usuários modernos têm monitores de resolução muito mais altos do que em anos anteriores. As ocorrências com as seguintes resoluções parecem ser muito populares para bots:
Você nota uma incompatibilidade entre o país de origem e o fuso horário. Por exemplo, o local pode ser os Estados Unidos, mas o fuso horário pode ser GMT.
O usuário não faz logon em nenhum ponto de sua visita e suas eVars de identificação de usuário não são mantidas de visitas anteriores. Embora alguns bots possam ser configurados para autenticação, a maioria não é tão inteligente.
Os bots normalmente não adicionam produtos a um carrinho de compras nem fazem check-out. Na maioria das vezes, eles não enviam formulários de cliente potencial ou outros eventos de sucesso; alguns bots enviam formulários HTML simples.
Às vezes, os bots tentam danificar o cache ou violar sites de outra forma, acessando URLs malformados ou que não existem (como as páginas de administrador típicas do LAMP ou do Wordpress) ou anexando strings de consulta específicas.
Os serviços de hospedagem na Web, como Amazon Web Services ou Google Cloud, podem ser usados como farms de bots. Estes endereços IP têm alto risco de serem bots:
​35.199
ou 35.194​