統計的手法
Analysis Workspace の異常値検出は、一連の高度な統計的手法を用いて、計測値を異常値と見なすべきかどうかを判定します。
レポートで使用しているデータ精度に応じて、特に 1 時間ごと、毎日、毎週/毎月の異常値検出用に、3 つの異なる統計的手法が使用されます。各統計的手法の概要を次に示します。
毎日の精度の異常値検出
毎日の精度のレポートの場合、アルゴリズムは、いくつかの重要な要素を考慮して、可能性のある最も正確な結果を産出します。まず、アルゴリズムは、時系列ベースのモデルまたは外れ値検出モデル(関数フィルタリングと呼ばれる)の 2 つのクラスの間でアルゴリズムが選択する利用可能なデータに基づいて、適用するモデルのタイプを決定します。
時系列モデルの選択は、エラーのタイプ、トレンド、シーズナリティ(ETS)の組み合わせに基づいています(Hyndman 他著(2008)を参照)。特に、アルゴリズムは、次の組み合わせを試します。
- ANA(エラー加算、トレンドなし、シーズナリティ加算)
- AAA(エラー加算、トレンド加算、シーズナリティ加算)
- MNM(エラー乗算、トレンドなし、シーズナリティ乗算)
- MNA(エラー乗算、トレンドなし、シーズナリティ加算)
- AAN(エラー加算、トレンド加算、シーズナリティなし)
アルゴリズムは、最良の平均絶対誤差率(MAPE)を持つ組み合わせを選択して、各組み合わせの適合性をテストします。 ただし、最高の時系列モデルの MAPE が 15%より高い場合、機能フィルタリングが適用されます。一般的に、繰り返し頻度の高いデータ(週、月ごとの週など)は、時系列モデルに最適です。
モデルの選択後、アルゴリズムは、休日および前年比のシーズナリティに基づいて結果を調整します。休日の場合、アルゴリズムは、レポートの日付範囲に次の休日のいずれかが存在するかどうかをチェックします。
- メモリアルデー(米国のみ)
- 4 年 7 月(PT)
- 感謝祭(米国のみ)
- ブラックフライデー(米国のみ)
- サイバーマンデー(米国のみ)
- 12 月 24~26 日(PT)
- 1 月 1 日(PT)
- 12 月 31 日(PT)
これらの休日は、顧客のトレンドの最多数に対して最も重要な休日を識別するために、多くの顧客データポイントにわたる広範な統計分析に基づいて選択されました。このリストは、すべてのお客様やビジネスサイクルに完全に表示されるわけではありませんが、これらの休日を適用すると、ほとんどすべての顧客のデータセットのアルゴリズム全体のパフォーマンスが大幅に向上します。
モデルが選択されて、レポートの日付範囲で休日が識別されると、アルゴリズムは、次の方法で進行します。
-
異常値参照期間を作成します。 この期間には、レポート日付範囲の最大 35 日前の日付と、1 年前の一致する日付範囲が含まれます。 また、必要に応じてうるう日を考慮し、前年の異なるカレンダー日に発生した可能性のある適用可能な休日を含めます。
-
現在の期間(前年を除く)の休日が最近のデータに基づいて異常かどうかをテストします。
-
現在の日付範囲の休日が異常である場合、前年の休日を前提として現在の休日の期待値と信頼区間を調整します(前後 2 日間を考慮)。現在の休日の修正は、次の最も低い平均絶対誤差率に基づきます。
- 加算効果
- 乗算効果
- 対前年比の差異
次の例では、クリスマスおよび元日のパフォーマンスが大幅に向上していることがわかります。
時間単位の精度の異常値検出
時間単位のデータは、毎日の精度のアルゴリズムと同じ時系列アルゴリズムアプローチに依存しています。ただし、24 時間サイクルと週末/平日サイクルの 2 つのトレンドパターンに大きく依存しています。これら 2 つの季節的影響を把握するために、時間単位のアルゴリズムは、これまでに説明してきたのと同じアプローチを使用した、週末と平日の 2 つの独立したモデルを構成します。
時間単位のトレーニング期間は、336 時間のルックバック期間に依存しています。
毎週および毎月の精度の異常値検出
毎週および毎月のトレンドは、毎日または時間単位の精度で見つかるのと同じ週または月単位のトレンドを提示しないので、このように独立したアルゴリズムが使用されます。毎週および毎月の頻度で、2 ステップの異常値検出アプローチは、Generalized Extreme Studentized Deviate (GESD)テストとして知られています。 この検定は、調整された箱ひげ図アプローチ(外れ値発見のためのノンパラメトリック手法)を組み合わせて、期待される異常値の最大数を考慮し、外れ値の最大数を判別します。次に、2 つのステップを示します。
- 調整された箱ひげ図関数:この関数は、入力データを前提とした異常の最大数を判別します。
- GESD 関数:ステップ 1 の出力と共に入力データに適用されます。
次に、休日と季節異常値検出ステップでは、今年のデータから昨年のデータを減算します。 その後、上記の 2 ステップのプロセスを使用してデータを再度繰り返し、異常値が季節的に適切であることを確認します。 これらのデータ精度のそれぞれは、選択したレポート日付範囲(15 ヶ月または 15 週間のどちらか)を含む 15 期間のルックバックおよびトレーニングに関する対応する日付範囲 1 年前を使用します。
貢献度分析で使用される統計的手法
貢献度分析は、Adobe Analytics で異常値と見なされた結果に貢献した要因を発見するために設計された、集中的な機械学習プロセスです。目的は、ユーザーが重点領域や追加分析の機会をより迅速に見つけられるように支援することです。
貢献度分析では、ユーザーの貢献度分析レポートで使用可能なすべての単一ディメンション項目に対して 2 つの部分のアルゴリズムを実行します。 アルゴリズムは、次の順番で動作します。
-
各ディメンションの場合、クラメールの V 検定統計を計算します。次の例では、2 つの期間にわたる国別ページビュー数の分割表について検討します。
表 1 では、Cramer の V を使用して、期間 1 の国(履歴など)と期間 2 の国(異常値が発生した日など)のページビュー間の関連を測定できます。 クラメールの V の低い値は、関連が低レベルであることを示しています。クラメールの V の範囲は、0(関連なし)から 1(完全な関連性)です。クラメールの V 統計は、次のように計算されます。
-
各ディメンション項目の場合、ピアソン残差(PR)が、異常な指標と各ディメンション項目の間の関連の測定に使用されます。PR は、標準正規分布に従い、偏差が比較可能でなくてもアルゴリズムで 2 つのランダム変数の PR を比較できます。実際には、エラーは不明で、有限のサンプル補正を使用して見積もられます。
表 1 の前述の例では、国 i と期間 2 に対する有限サンプル補正を使用した PR は、次の式で求められます。
where
(期間 1 についても同様の式を得ることができる。)
最終結果として、各ディメンション項目のスコアは、クラメールの V 指標で重み付けされ、0~1 の数値に再測定されて、貢献度スコアが提供されます。