一般的なボットの特徴

データセット内のボットの識別は環境によって異なりますが、ボットを識別する一般的な方法をいくつか紹介します。

1 回の訪問あたりのページビュー数が多い

IP アドレス、ページビュー、およびユニーク訪問者を含む Data Warehouse レポートを取り込むことができます。 次に、Excel で訪問ごとのページビュー数の計算を作成し、高い順に並べ替えます。 ボットでは通常、1 回の訪問あたりのページビュー数が非常に多くなります(数百から数千)。 実際のトラフィックに移動すると、急激な減少が見られます。

リファラーがない

ボットには通常、参照 URL がありません。 セグメンテーションでは、これを Referring Domain equals Typed/Bookmarked としてフィルタリングできます。

不審なユーザーエージェント

ボットは、ブラウザーディメンションに分類されていない、または標準ブラウザーの unknown バージョンとして表示されるカスタムユーザーエージェントを使用することがよくあります。 不明な Safari と不明な Opera は、ボットである可能性が非常に高くなります。

Linux または「指定なし」のオペレーティングシステム

優れたオープンソースである Linux オペレーティングシステムの信用を傷つけるつもりはありませんが、ボットはオペレーティングシステムとして Linux を設定することを好むようです。 ただし、Linux ユーザーから正規のトラフィックを除外する場合は注意が必要です。 ボットは、Operating System ​equals Not Specified としてセグメント化できるオペレーティングシステムを設定しないことも好みます。

ページビュー = 訪問者数 = ユニーク訪問者

これは特にユーザーエージェントレポートに当てはまります。 以下のスクリーンショットでわかるように、これらのブラウザーの「不明なバージョン」では、ユニーク訪問者と訪問者の数がほぼ同じ(そしてページビューの数もほぼ同じ数)になります。 これは、Single Page Visits equals Enabled または Hit Depth is less than 2 のインクルードコンテナを作成することにより、セグメンテーションで分離できます。

訪問回数 1

ボットは通常、実行のたびに新しい訪問者 ID を取得します。そのため、訪問は 1 回のみ発生し、すべてのトラフィックは訪問回数 1 で構成されます。

モニターの解像度が低い

現代のユーザーは、以前に比べてはるかに高い解像度のモニターを持っています。 次の解像度のヒットは、ボットに非常に人気があるようです。

  • 1024x768​​
  • 1366 x 768
  • 1600 x 864
  • 800 x 600
  • 1600 x 1200
  • 指定なし
  • 1024 x 667

国とタイムゾーンが一致していない

発信国とタイムゾーンが一致していないことに気付くでしょう。例えば、場所は米国ですが、タイムゾーンは GMT となる場合があります。

ログインしていない

ユーザーは訪問のどの時点でもログインせず、ユーザー ID eVar は以前の訪問から保持されません。 一部のボットは認証されるよう設定できますが、大部分のボットはそれほどスマートではありません。

訪問中の KPI がない

ボットは通常、買い物かごに商品を追加したりチェックアウトしたりしません。 ほとんどの場合、リードフォームや他の成功イベントを送信しませんが、ボットによっては単純な HTML フォームを送信する場合があります。

特定のクエリ文字列が存在する

ボットは、不正な形式の URL や存在しない URL (通常の LAMP や Wordpress の管理ページなど)をヒットしたり、特定のクエリ文字列を追加したりして、キャッシュやサイトの破壊を試みることがあります。

分散コンピューティングプラットフォームに由来する IP アドレス

Amazon Web サービスや Google Cloud などの Web ホスティングサービスは、ボットファームとして悪用される可能性があります。 次の IP アドレスは、ボットであるリスクが高くなります。

  • Google Cloud:IP アドレスは ​35.199 または 35.194​ で始まります。
recommendation-more-help
2969e653-1f9b-4947-8b90-367efb66d529