選択した Audience Manager レポートでのデータサンプリングとエラー率 data-sampling-and-error-rates-in-selected-audience-manager-reports

いくつかのレポートで使用されているサンプリング方法、サンプリングのエラー率についての概要、およびサンプルデータに基づく情報が返されるレポートのリスト。

データサンプリング率 data-sampling-ratio

一部の Audience Manager レポートでは、使用可能なすべてのデータのうちサンプリングしたセットに基づいて結果が表示されます。サンプリングされたデータの比率は 1:54 です。この場合、サンプリングされたデータを使用するレポートは、54 件のうち 1 件のレコードが結果として表示されます。

これらの統計レポートでサンプリングされたデータを使用しているのは、結果の生成に大量の計算が必要となるためです。サンプリングにより、必要な計算量の削減、システムパフォーマンスの維持、正確な結果の入手がすべてバランスよくおこなえます。

エラー率 error-rates

重複データを生成するレポートでは、エラーが発生する場合があります。エラーは、以下に該当するレコードの割合として表されます。

  • 本来レポートに含まれないはずが、追加されている。
  • 本来レポートに含まれるはずが、含まれていない。

これまでのテストとモデルから、エラー率はデータセットのレコード数に反比例して​ 減少 ​することが判明しています。レコード数が多いデータセットでは、レコード数が少ないデータセットよりエラーが少なくなります。このアサーションについて、量的な面から見てみましょう。次の表からわかるように、所定のレコード数について、レポート結果の 95%が特定のエラー率を下回っています。

レコード数
エラー率
500~1,000
95%がエラー率 42%未満である。
1,000~1,500
95%がエラー率 34%未満である。
10,000~50,000
95%がエラー率 14%未満である。
50,000
95%がエラー率 6%未満である。
100,000
95%がエラー率 4%未満である。
500,000 以上
95%がエラー率 2%未満である。

Minhash サンプリング方法の使用 minhash

Audience Managerは、Minhash サンプリング手法に基づき、One Permutation Hashing(1 置換ハッシュ)データスケッチの上にある特性およびセグメント評価子を計算する新しい方法を使用します。この新しい方法では、Jaccard の類似性に関する標準の見積もりよりも偏差が少なくなります。この方法を使用するレポートについては、以下のセクションを参照してください。

サンプリングデータを使用するレポート reports-using-sampled-data

統計的にサンプリングされたデータと Minhash サンプリング手法を使用する Audience Manager レポートは、次のとおりです。

統計的サンプリング
Minhash サンプリング法
アドレス可能なオーディエンスデータ(顧客レベルデータとセグメントレベルデータ)。
重複レポート(特性間、セグメント - 特性間、セグメント間)
Profile Merge Ruleの合計デバイス数指標。
特性レコメンデーション
Data Explorer は、「Search」タブおよび任意の Saved Searches のサンプリングデータを使用します
Audience Marketplace Recommendations
recommendation-more-help
de293fbf-b489-49b0-8daa-51ed303af695