データセット内のボットの識別は環境によって異なりますが、次に、ボットを識別する一般的な方法を示します。
IPアドレス、ページ表示、個別訪問者を含むData Warehouseレポートを取り込むことができます。 次に、Excelで1回の訪問あたりのページ表示数の計算を作成し、高い順に並べ替えます。 ボットのページ表示数は、通常、1回の訪問あたり非常に多く(数10 ~数千)になります。 実際のトラフィックに移動すると、大幅に減少します。
ボットは通常、参照URLを持ちません。 セグメント化では、これをReferring Domain equals Typed/Bookmarked
としてフィルタリングできます。
ボットは、多くの場合、Browsersディメンションに分類されていない、または標準ブラウザーのunknown
バージョンとして表示されるカスタムユーザーエージェントを使用します。 未知のSafariや未知のオペラは、ボットである可能性が非常に高い。
ぼくたちは、オープンソースのLinuxオペレーティングシステムを信用しないつもりはないけれど、でも、どうやら、それをオペレーティングシステムとして設定するのがボットみたいだ。 ただし、Linuxユーザから正規のトラフィックを除外する場合は注意が必要です。 ボットは、オペレーティングシステムを設定しないことを好みます。オペレーティングシステムはOperating System ​equals Not Specified
としてセグメント化できます。
これは、特にユーザーエージェントレポートに適用されます。 下のスクリーンショットに示すように、これらのブラウザーの「不明なバージョン」の訪問者数は、実訪問者数とほぼ同じです(ページ表示数もほぼ同じです)。 これは、Single Page Visits equals Enabled
またはHit Depth is less than 2
のIncludeコンテナを作成することで、セグメント化で分離できます。
ボットは通常、実行のたびに新しい訪問者IDを取得するので、訪問は1回のみ発生し、すべてのトラフィックは訪問回数1で構成されます。
現代のユーザーは、以前に比べて解像度がはるかに高くなっています。 次の解像度を持つヒットは、ボットにとって非常に人気があるようです。
発信元の国とタイムゾーンが一致しないことに気づくでしょう。 例えば、場所は米国ですが、タイムゾーンはGMTである場合があります。
ユーザーが訪問のどの時点でもログインせず、ユーザーID eVarが以前の訪問と異なります。 一部のボットは認証用に設定できますが、大部分のボットはスマートではありません。
ボットは通常、買い物かごに商品を追加したりチェックアウトしたりしません。 ほとんどの場合、リードフォームや他の成功イベントを送信していませんが、ボットによっては単純なHTMLフォームを送信している場合があります。
ボットがキャッシュを破棄しようとしたり、存在しない形式のURLやURL(一般的なLAMPやWordpressの管理ページなど)をヒットしたり、特定のクエリ文字列を追加したりしてサイトを壊そうとする場合があります。
AmazonWebサービスやGoogle CloudなどのWebホスティングサービスは、ボットファームとして悪用される場合があります。 これらのIPアドレスは、ボットになるリスクが高くなります。
​35.199
35.194​