A/A テスト

Adobe Target を使用してサイトで A/A テストを実行する前に、A/A テストの概要、A/A テストを実行する理由、テストの実行期間、結果の解釈方法を理解することが重要です。

A/A テストとは

A/A テストについて説明する前に、A/B テストを確認し、違いについて話し合っておくことをお勧めします。

標準的な A/B テストでは、トラフィックは 2 つ以上の異なるエクスペリエンスに割り当てられます。 通常、1 つのエクスペリエンスは「コントロール」で、エクスペリエンスのバリエーションをコントロールに対してテストし、特定の指標で最も上昇率が高いエクスペリエンスを確認します。

ただし、A/A テストでは、通常は 50/50 トラフィック配分の割合で、トラフィックを 2 つの同一のエクスペリエンスに割り当てます。 標準の A/B テストでは、通常、コンバージョンの上昇率を確認する必要があります。 これは、A/A テストとは異なります。A/A テストの目標は、通常、同一のエクスペリエンス間の上昇率に違いがない なし ことを判断することです。

2 つの同一のエクスペリエンスをテストする理由と目的

組織によっては、Target などの新しいテストツールを実装する際に A/A テストを実行して、以下かどうかを判断することがあります。

  • アクティビティが正しく設定された
  • コードは正しく実装されました
  • レポートは正確です

A/A テストを実行する組織はほとんどありませんが、ツールを実装した後や、コンバージョンや売上高に影響を与える可能性がある A/B テストを実行する前に、信頼を構築するために、「健全性」実験として A/A テストを実行することをお勧めします。

エクスペリエンスが同じ場合に、あるエクスペリエンスの上昇率が表示されるのはなぜですか?

あるエクスペリエンスの上昇率が別の(同一の)エクスペリエンスの上昇率と比較される理由は多数あります。

A/A テストは継続的に監視されました

A/A テストを含むあらゆる種類のテストを実行する際の一般的な問題は、結果を継続的に確認し、統計的有意性が表示されたときにテストを早めに停止し、勝者エクスペリエンスを宣言することです。 アナリストは、多くの場合、「データピーク」と呼ばれる処理を行います。 データチェックでは、どのエクスペリエンスのパフォーマンスが向上しているかを判断しようと努めながら、テストデータを早期に頻繁に確認します。 リスクとしては、テストを早めに停止すると、結果が無効になる可能性があります。

A/A テストでは、2 つのエクスペリエンスが同じなので、実際には違いがない場合、データのピークにより、アナリストは 1 つのエクスペリエンスに上昇率が表示されることがよくあります。 実際、連続的なピーク時には、A/A テストは 保証 され、テスト中のある時点での「統計的優位差」(つまり、95% などの特定のしきい値を超える信頼性)が表示されます。

これを回避するには、通常の A/B テストと同様に、効果の最小サイズ(効果がビジネスにとって重要でなくなる最小リフト)、消費電力、有意性のレベルに基づいて、どのサンプルサイズを使用するかを事前に決定する必要があります。

A/A テストの目標は、テストが目的のサンプルサイズに達した後に 統計的に有意な結果を確認 ないことです。

Adobe Target Sample Size Calculator は、目標とするサンプルサイズとテストを実行する期間を決定するのに役立つ重要なツールです。

また、アクティビティを実行する期間やその他の役立つヒントやテクニックについては、次の記事を参照してください。

統計的有意差はテスト結果に影響を与えます

テストの有意性レベルは、実際には実際には違いがない場合に、テストが 2 つの異なるオファー間でコンバージョン率の有意な違いをレポートする可能性を決定します。 これは、偽陽性、または Type I エラーと呼ばれます。 有意レベルはユーザーが指定するしきい値であり、偽陽性の許容値と適切な有意レベルを選択する際にテストに含める必要がある訪問者数との間にトレードオフがあります。

A/A および A/B テストで一般的に使用される有意水準は 5% で、95% の信頼水準(信頼水準= 100% – 有意水準)に対応します。 信頼性レベルが 95% の場合、テストを実行するたびに、エクスペリエンス間に違いがない場合でも、統計的に有意な上昇を検出する可能性が 5% になります。

A/A テストで 95% の信頼性レベルを達成したいとします。 95% の信頼性レベルでは、20 回の A/A テストのうち 1 回のテストで、コンバージョンの統計的に有意な上昇が示される可能性があります。 90% の信頼性レベルでは、同一のエクスペリエンスをテストした場合、10 回のうち 1 回のテストでコンバージョンの上昇が示される可能性があります。

ベストプラクティス

組織で A/A テストが必要と判断した場合は、同一のエクスペリエンスが一時的にコントロールとの違いを示す可能性があることに注意してください。 テストの実行時間によっては、これは正常な場合があります。 この違いは、より多くの時間と訪問者を与えられた場合、縮小する必要があります。

ベストプラクティスは、通常の A/B テスト手法を使用することです。Adobe Target サイズ計算ツールを使用して、関連する最小エフェクトサイズ、望ましい検出力、重要度に基づいて、事前にサンプルサイズを決定します。

次に、結論に達する前に十分な時間と訪問者を許可し、テストの有意性レベルに応じて、1 つのエクスペリエンスが上昇率の違いを示し、勝者として宣言される可能性があることを覚えておいてください。

recommendation-more-help
3d9ad939-5908-4b30-aac1-a4ad253cd654