ドキュメント Customer Journey Analytics Customer Journey Analytics ガイド

統計的手法

最終更新日： 2026年5月21日

トピック：
{"id":"c73c4213-d623-4126-81f4-80b42e5e2656"}

作成対象：

{"id":"b69b2659-1057-424e-8fc5-ed9e016dc554"}

Analysis Workspace の異常値検出は、一連の高度な統計的手法を用いて、計測値を異常値と見なすべきかどうかを判定します。

レポートで使用しているデータ精度に応じて、特に 1 時間ごと、毎日、毎週／毎月の異常値検出用に、3 つの異なる統計的手法が使用されます。各統計的手法の概要を次に示します。

毎日の精度の異常値検出

毎日の精度のレポートの場合、アルゴリズムは、いくつかの重要な要素を考慮して、可能性のある最も正確な結果を産出します。まず、アルゴリズムは、利用可能なデータに基づいて、適用するモデルのタイプを決定します。このモデルでは、時系列ベースモデルと異常値検出モデル（機能セグメンテーションと呼ばれます）のふたつのクラスのいずれかを選択します。

時系列モデルの選択は、エラーのタイプ、トレンド、シーズナリティ（ETS）の組み合わせに基づいています（Hyndman 他著 (2008). 具体的には、アルゴリズムは次の組み合わせを試みます。

ANA （付加誤差、トレンドなし、付加季節性）
AAA （加法誤差、加法傾向、加法季節性）
MNM （乗法誤差、トレンドなし、乗法季節性）
MNA （乗法誤差、トレンドなし、加法季節性）
AAN （加法誤差、加法傾向、季節性なし）

このアルゴリズムは、平均の絶対誤差（MAPE）が最も大きい組み合わせを選択することで、これらの各組み合わせの適合性をテストします。ただし、最適な時系列モデルのMAPEが15%を超える場合は、機能セグメンテーションが適用されます。通常、時系列モデルでは、反復の程度が高いデータ（例えば、週ごとに、月ごとに）が最適です。

モデルを選択すると、アルゴリズムは休日と前年比の季節性にもとづいて結果を調整します。休日の場合、アルゴリズムは、レポート日付範囲に次の休日があるかどうかを確認します。

記念日
4 年 7 月（PT）
感謝祭
Black Friday
Cyber Monday
12 月 24～26 日（PT）
1 月 1 日（PT）
12 月 31 日（PT）

これらの休日は、顧客のトレンドの最多数に対して最も重要な休日を識別するために、多くの顧客データポイントにわたる広範な統計分析に基づいて選択されました。リストはすべての顧客またはビジネスサイクルに対して完全ではありませんが、休日を適用すると、ほぼすべての顧客のデータセットのアルゴリズム全体のパフォーマンスが大幅に向上します。

モデルが選択されて、レポートの日付範囲で休日が識別されると、アルゴリズムは、次の方法で進行します。

異常値参照期間の設定：この異常値参照期間には、レポートの日付範囲の最大35日前と、一致する日付範囲の1年前が含まれます。前年の異なるカレンダー日に発生した可能性のある該当する休日を含め、必要に応じてうるう日数を考慮します。
現在の期間（前年を除く）の休日が最近のデータに基づいて異常かどうかをテストします。
現在の日付範囲の休日が異常である場合、前年の休日を前提として現在の休日の期待値と信頼区間を調整します（前後 2 日間を考慮）。現在の休日の修正は、次の最低平均絶対率誤差に基づいています。
1. 加法効果
2. 乗法効果
3. 前年差額

次の例では、クリスマスおよび元日のパフォーマンスが大幅に向上していることがわかります。

ホリデーパフォーマンスの有無に関するパフォーマンスの変更を示す2つの折れ線グラフ。

時間単位の精度の異常値検出

時間別データは、日次の精度アルゴリズムと同じ時系列アルゴリズムのアプローチに依存します。しかし、このモデルは2つのトレンドパターンに大きく依存しています。24時間サイクルと週末/平日サイクルです。これらの2つの季節的効果を捉えるために、時間別アルゴリズムは、上記で概説した同じアプローチを使用して、週末と平日の2つの別々のモデルを構築します。

時間別トレンドのトレーニングウィンドウは、336時間のルックバックウィンドウに依存しています。

毎週および毎月の精度の異常値検出

週単位と月単位のトレンドは、日単位または時間単位の精度で見つかる週単位または日単位のトレンドとは異なるため、別個のアルゴリズムが使用されます。週単位および月単位では、2段階の異常値検出アプローチは一般化された極端な学習偏差（GESD）テストとして知られています。このテストでは、予想される異常値の最大数と、調整されたボックスプロットアプローチ（異常値検出の非パラメトリック手法）を組み合わせて、異常値の最大数を判断します。 2つの手順は次のとおりです。

調整済みボックスプロット関数：この関数は、入力データに指定された異常値の最大数を決定します。
GESD関数：手順1の出力で入力データに適用されます。

ホリデーシーズンと前年同期異常値検出ステップでは、今年のデータから昨年のデータを差し引きます。異常が季節的に適切かどうかを検証するために、上記の2つのステップのプロセスを使用してデータを繰り返します。これらのデータ精度のそれぞれは、選択したレポート日付範囲（15 ヶ月または 15 週間のどちらか）を含む 15 期間のルックバックおよびトレーニングに関する対応する日付範囲 1 年前を使用します。

recommendation-more-help

analytics-platform-help-main