一般的なボットの特徴
データセット内のボットの識別は環境によって異なりますが、ボットを識別する一般的な方法をいくつか紹介します。
1 回の訪問あたりのページビュー数が多い
IP アドレス、ページビュー、およびユニーク訪問者を含む Data Warehouse レポートを取り込むことができます。 次に、Excel で訪問ごとのページビュー数の計算を作成し、高い順に並べ替えます。 ボットでは通常、1 回の訪問あたりのページビュー数が非常に多くなります(数百から数千)。 実際のトラフィックに移動すると、急激な減少が見られます。
リファラーがない
ボットには通常、参照 URL がありません。 セグメンテーションでは、これを Referring Domain equals Typed/Bookmarked
としてフィルタリングできます。
不審なユーザーエージェント
ボットは、ブラウザーディメンションに分類されていない、または標準ブラウザーの unknown
バージョンとして表示されるカスタムユーザーエージェントを使用することがよくあります。 不明な Safari と不明な Opera は、ボットである可能性が非常に高くなります。
Linux または「指定なし」のオペレーティングシステム
優れたオープンソースである Linux オペレーティングシステムの信用を傷つけるつもりはありませんが、ボットはオペレーティングシステムとして Linux を設定することを好むようです。 ただし、Linux ユーザーから正規のトラフィックを除外する場合は注意が必要です。 ボットは、Operating System ​equals Not Specified
としてセグメント化できるオペレーティングシステムを設定しないことも好みます。
ページビュー = 訪問者数 = ユニーク訪問者
これは特にユーザーエージェントレポートに当てはまります。 以下のスクリーンショットでわかるように、これらのブラウザーの「不明なバージョン」では、ユニーク訪問者と訪問者の数がほぼ同じ(そしてページビューの数もほぼ同じ数)になります。 これは、Single Page Visits equals Enabled
または Hit Depth is less than 2
のインクルードコンテナを作成することにより、セグメンテーションで分離できます。
訪問回数 1
ボットは通常、実行のたびに新しい訪問者 ID を取得します。そのため、訪問は 1 回のみ発生し、すべてのトラフィックは訪問回数 1 で構成されます。
モニターの解像度が低い
現代のユーザーは、以前に比べてはるかに高い解像度のモニターを持っています。 次の解像度のヒットは、ボットに非常に人気があるようです。
- 1024x768
- 1366 x 768
- 1600 x 864
- 800 x 600
- 1600 x 1200
- 指定なし
- 1024 x 667
国とタイムゾーンが一致していない
発信国とタイムゾーンが一致していないことに気付くでしょう。例えば、場所は米国ですが、タイムゾーンは GMT となる場合があります。
ログインしていない
ユーザーは訪問のどの時点でもログインせず、ユーザー ID eVar は以前の訪問から保持されません。 一部のボットは認証されるよう設定できますが、大部分のボットはそれほどスマートではありません。
訪問中の KPI がない
ボットは通常、買い物かごに商品を追加したりチェックアウトしたりしません。 ほとんどの場合、リードフォームや他の成功イベントを送信しませんが、ボットによっては単純な HTML フォームを送信する場合があります。
特定のクエリ文字列が存在する
ボットは、不正な形式の URL や存在しない URL (通常の LAMP や Wordpress の管理ページなど)をヒットしたり、特定のクエリ文字列を追加したりして、キャッシュやサイトの破壊を試みることがあります。
分散コンピューティングプラットフォームに由来する IP アドレス
Amazon Web サービスや Google Cloud などの Web ホスティングサービスは、ボットファームとして悪用される可能性があります。 次の IP アドレスは、ボットであるリスクが高くなります。
- Google Cloud:IP アドレスは
​35.199
または35.194​
で始まります。