データセット内のボットの識別は環境によって異なりますが、ボットを識別する一般的な方法をいくつか紹介します。
IP アドレス、ページビュー、およびユニーク訪問者を含む Data Warehouse レポートを取り込むことができます。 次に、Excel で訪問ごとのページビュー数の計算を作成し、高い順に並べ替えます。 ボットでは通常、1 回の訪問あたりのページビュー数が非常に多くなります(数百から数千)。 実際のトラフィックに移動すると、急激な減少が見られます。
ボットには通常、参照 URL がありません。 セグメンテーションでは、これを Referring Domain equals Typed/Bookmarked
としてフィルタリングできます。
ボットは、ブラウザーディメンションに分類されていない、または標準ブラウザーの unknown
バージョンとして表示されるカスタムユーザーエージェントを使用することがよくあります。 不明な Safari と不明な Opera は、ボットである可能性が非常に高くなります。
優れたオープンソースである Linux オペレーティングシステムの信用を傷つけるつもりはありませんが、ボットはオペレーティングシステムとして Linux を設定することを好むようです。 ただし、Linux ユーザーから正規のトラフィックを除外する場合は注意が必要です。 ボットは、Operating System ​equals Not Specified
としてセグメント化できるオペレーティングシステムを設定しないことも好みます。
これは特にユーザーエージェントレポートに当てはまります。 以下のスクリーンショットでわかるように、これらのブラウザーの「不明なバージョン」では、ユニーク訪問者と訪問者の数がほぼ同じ(そしてページビューの数もほぼ同じ数)になります。 これは、Single Page Visits equals Enabled
または Hit Depth is less than 2
のインクルードコンテナを作成することにより、セグメンテーションで分離できます。
ボットは通常、実行のたびに新しい訪問者 ID を取得します。そのため、訪問は 1 回のみ発生し、すべてのトラフィックは訪問回数 1 で構成されます。
現代のユーザーは、以前に比べてはるかに高い解像度のモニターを持っています。 次の解像度のヒットは、ボットに非常に人気があるようです。
発信国とタイムゾーンが一致していないことに気付くでしょう。例えば、場所は米国ですが、タイムゾーンは GMT となる場合があります。
ユーザーは訪問のどの時点でもログインせず、ユーザー ID eVar は以前の訪問から保持されません。 一部のボットは認証されるよう設定できますが、大部分のボットはそれほどスマートではありません。
ボットは通常、買い物かごに商品を追加したりチェックアウトしたりしません。 ほとんどの場合、リードフォームや他の成功イベントを送信しませんが、ボットによっては単純な HTML フォームを送信する場合があります。
ボットは、不正な形式の URL や存在しない URL (通常の LAMP や Wordpress の管理ページなど)をヒットしたり、特定のクエリ文字列を追加したりして、キャッシュやサイトの破壊を試みることがあります。
Amazon Web サービスや Google Cloud などの Web ホスティングサービスは、ボットファームとして悪用される可能性があります。 次の IP アドレスは、ボットであるリスクが高くなります。
​35.199
または 35.194​
で始まります。