統計的手法

Analysis Workspace の異常値検出は、一連の高度な統計的手法を用いて、計測値を異常値と見なすべきかどうかを判定します。

レポートで使用しているデータ精度に応じて、特に 1 時間ごと、毎日、毎週/毎月の異常値検出用に、3 つの異なる統計的手法が使用されます。各統計的手法の概要を次に示します。

毎日の精度の異常値検出

毎日の精度のレポートの場合、アルゴリズムは、いくつかの重要な要素を考慮して、可能性のある最も正確な結果を産出します。まず、アルゴリズムは、2 つのクラス(時系列ベースのモデルまたは外れ値検出モデル(関数セグメント化と呼ばれる)のどちらかを選択する使用可能なデータに基づいて、適用するモデルのタイプを決定します。

時系列モデルの選択は、エラーのタイプ、トレンド、シーズナリティ(ETS)の組み合わせに基づいています(Hyndman 他著(2008)を参照)。特に、アルゴリズムは、次の組み合わせを試します。

  1. ANA(エラー加算、トレンドなし、シーズナリティ加算)
  2. AAA(エラー加算、トレンド加算、シーズナリティ加算)
  3. MNM(エラー乗算、トレンドなし、シーズナリティ乗算)
  4. MNA(エラー乗算、トレンドなし、シーズナリティ加算)
  5. AAN(エラー加算、トレンド加算、シーズナリティなし)

アルゴリズムは、最良の平均絶対誤差率(MAPE)を持つ組み合わせを選択することにより、これらの各組み合わせの適合性をテストします。 ただし、最良の時系列モデルの MAPE が 15% を超える場合は、機能的セグメント化が適用されます。 一般的に、繰り返し頻度の高いデータ(週、月ごとの週など)は、時系列モデルに最適です。

モデルの選択後、アルゴリズムは、休日および前年比のシーズナリティに基づいて結果を調整します。休日の場合、アルゴリズムは、レポートの日付範囲に次の休日のいずれかが存在するかどうかをチェックします。

  • メモリアルデー(米国のみ)
  • 4 年 7 月(PT)
  • 感謝祭(米国のみ)
  • ブラックフライデー(米国のみ)
  • サイバーマンデー(米国のみ)
  • 12 月 24~26 日(PT)
  • 1 月 1 日(PT)
  • 12 月 31 日(PT)

これらの休日は、顧客のトレンドの最多数に対して最も重要な休日を識別するために、多くの顧客データポイントにわたる広範な統計分析に基づいて選択されました。このリストは、すべてのお客様やビジネスサイクルに完全に表示されるわけではありませんが、休日を適用すると、ほとんどすべての顧客のデータセットのアルゴリズム全体のパフォーマンスが大幅に向上します。

モデルが選択されて、レポートの日付範囲で休日が識別されると、アルゴリズムは、次の方法で進行します。

  1. 異常値参照期間を作成します。 この異常値参照期間には、レポート日付範囲の最大 35 日前と、1 年前の一致する日付範囲が含まれます。 前年の異なる暦日に発生した可能性のある適用可能な休日を含め、必要なうるう日を考慮に入れます。

  2. 現在の期間(前年を除く)の休日が最近のデータに基づいて異常かどうかをテストします。

  3. 現在の日付範囲の休日が異常である場合、前年の休日を前提として現在の休日の期待値と信頼区間を調整します(前後 2 日間を考慮)。現在の休日の修正は、次の最も低い平均絶対誤差率に基づきます。

    1. 加算効果
    2. 乗算効果
    3. 対前年比の差異

次の例では、クリスマスおよび元日のパフォーマンスが大幅に向上していることがわかります。

パフォーマンスの変化(休日パフォーマンスの有無を示す 2 つの折れ線グラフ

時間単位の精度の異常値検出

時間単位のデータは、毎日の精度のアルゴリズムと同じ時系列アルゴリズムアプローチに依存しています。ただし、24 時間サイクルと週末/平日サイクルの 2 つのトレンドパターンに大きく依存しています。これら 2 つの季節的影響を把握するために、時間単位のアルゴリズムは、これまでに説明してきたのと同じアプローチを使用した、週末と平日の 2 つの独立したモデルを構成します。

時間単位のトレーニング期間は、336 時間のルックバック期間に依存しています。

毎週および毎月の精度の異常値検出

毎週および毎月のトレンドは、毎日または時間単位の精度で見つかるのと同じ週または月単位のトレンドを提示しないので、このように独立したアルゴリズムが使用されます。毎週および毎月の頻度で、2 ステップの異常値検出アプローチは、Generalized Extreme Studentized Deviate (GESD)テストとして知られています。 この検定は、調整された箱ひげ図アプローチ(外れ値発見のためのノンパラメトリック手法)を組み合わせて、期待される異常値の最大数を考慮し、外れ値の最大数を判別します。次に、2 つのステップを示します。

  1. 調整された箱ひげ図関数:この関数は、入力データを前提とした異常の最大数を判別します。
  2. GESD 関数:ステップ 1 の出力と共に入力データに適用されます。

次に、休日と季節異常値検出ステップでは、今年のデータから昨年のデータを減算します。 その後、上記の 2 ステップのプロセスを使用してデータを再度繰り返し、異常値が季節的に適切であることを確認します。 これらのデータ精度のそれぞれは、選択したレポート日付範囲(15 ヶ月または 15 週間のどちらか)を含む 15 期間のルックバックおよびトレーニングに関する対応する日付範囲 1 年前を使用します。

recommendation-more-help
080e5213-7aa2-40d6-9dba-18945e892f79