選択した Audience Manager レポートでのデータサンプリングとエラー率 data-sampling-and-error-rates-in-selected-audience-manager-reports
いくつかのレポートで使用されているサンプリング方法、サンプリングのエラー率についての概要、およびサンプルデータに基づく情報が返されるレポートのリスト。
データサンプリング率 data-sampling-ratio
一部の Audience Manager レポートでは、使用可能なすべてのデータのうちサンプリングしたセットに基づいて結果が表示されます。サンプリングされたデータの比率は 1:54 です。この場合、サンプリングされたデータを使用するレポートは、54 件のうち 1 件のレコードが結果として表示されます。
これらの統計レポートでサンプリングされたデータを使用しているのは、結果の生成に大量の計算が必要となるためです。サンプリングにより、必要な計算量の削減、システムパフォーマンスの維持、正確な結果の入手がすべてバランスよくおこなえます。
エラー率 error-rates
重複データを生成するレポートでは、エラーが発生する場合があります。エラーは、以下に該当するレコードの割合として表されます。
- 本来レポートに含まれないはずが、追加されている。
- 本来レポートに含まれるはずが、含まれていない。
これまでのテストとモデルから、エラー率はデータセットのレコード数に反比例して 減少 することが判明しています。レコード数が多いデータセットでは、レコード数が少ないデータセットよりエラーが少なくなります。このアサーションについて、量的な面から見てみましょう。次の表からわかるように、所定のレコード数について、レポート結果の 95%が特定のエラー率を下回っています。
Minhash サンプリング方法の使用 minhash
Audience Managerは、Minhash サンプリング手法に基づき、One Permutation Hashing(1 置換ハッシュ)データスケッチの上にある特性およびセグメント評価子を計算する新しい方法を使用します。この新しい方法では、Jaccard の類似性に関する標準の見積もりよりも偏差が少なくなります。この方法を使用するレポートについては、以下のセクションを参照してください。
サンプリングデータを使用するレポート reports-using-sampled-data
統計的にサンプリングされたデータと Minhash サンプリング手法を使用する Audience Manager レポートは、次のとおりです。