ドキュメント Customer Journey Analytics Customer Journey Analytics ガイド

統計的手法

Last update: Wed Oct 15 2025 00:00:00 GMT+0000 (Coordinated Universal Time)

トピック：
異常値検出

作成対象：

ユーザー

Analysis Workspace の異常値検出は、一連の高度な統計的手法を用いて、計測値を異常値と見なすべきかどうかを判定します。

レポートで使用しているデータ精度に応じて、特に 1 時間ごと、毎日、毎週／毎月の異常値検出用に、3 つの異なる統計的手法が使用されます。各統計的手法の概要を次に示します。

毎日の精度の異常値検出

毎日の精度のレポートの場合、アルゴリズムは、いくつかの重要な要素を考慮して、可能性のある最も正確な結果を産出します。まず、アルゴリズムは、2 つのクラス（時系列ベースのモデルまたは外れ値検出モデル（関数セグメント化と呼ばれる）のどちらかを選択する使用可能なデータに基づいて、適用するモデルのタイプを決定します。

時系列モデルの選択は、エラーのタイプ、トレンド、シーズナリティ（ETS）の組み合わせに基づいています（Hyndman 他著（2008）。具体的には、アルゴリズムは次の組み合わせを試みます。

ANA （相加誤差、トレンドなし、相加季節性）
AAA （加算エラー、加算トレンド、加算シーソナリティ）
MNM （乗算誤差、トレンドなし、乗算季節性）
MNA （乗法エラー、トレンドなし、加算シーソナリティ）
AAN （加算エラー、加算トレンド、季節性なし）

アルゴリズムは、最良の平均絶対誤差率（MAPE）を持つ組み合わせを選択することにより、これらの各組み合わせの適合性をテストします。ただし、最良の時系列モデルの MAPE が 15% を超える場合は、機能的セグメント化が適用されます。一般的に、繰り返し頻度の高いデータ（週、月ごとの週など）は、時系列モデルに最適です。

モデル選択後、アルゴリズムは休日と前年比に基づいて結果を調整します。休日の場合、アルゴリズムは、レポートの日付範囲に次の休日が存在するかどうかを確認します。

記念日
4 年 7 月（PT）
感謝祭
ブラックフライデー
サイバーマンデー
12 月 24～26 日（PT）
1 月 1 日（PT）
12 月 31 日（PT）

これらの休日は、顧客のトレンドの最多数に対して最も重要な休日を識別するために、多くの顧客データポイントにわたる広範な統計分析に基づいて選択されました。このリストは、すべてのお客様やビジネスサイクルに完全に表示されるわけではありませんが、休日を適用すると、ほとんどすべての顧客のデータセットのアルゴリズム全体のパフォーマンスが大幅に向上します。

モデルが選択されて、レポートの日付範囲で休日が識別されると、アルゴリズムは、次の方法で進行します。

異常値参照期間を作成します。この異常値参照期間には、レポート日付範囲の最大 35 日前と、1 年前の一致する日付範囲が含まれます。前年の異なる暦日に発生した可能性のある適用可能な休日を含め、必要なうるう日を考慮に入れます。
現在の期間（前年を除く）の休日が最近のデータに基づいて異常かどうかをテストします。
現在の日付範囲の休日が異常である場合、前年の休日を前提として現在の休日の期待値と信頼区間を調整します（前後 2 日間を考慮）。現在の休暇の修正は、次の値の最小平均絶対誤差率に基づいて行われます。
1. 追加効果
2. 乗算効果
3. YoY 差異

次の例では、クリスマスおよび元日のパフォーマンスが大幅に向上していることがわかります。

パフォーマンスの変化（休日パフォーマンスの有無を示す 2 つの折れ線グラフ

時間単位の精度の異常値検出

時間別データは、毎日の精度アルゴリズムと同じ時系列アルゴリズムアプローチに依存しています。ただし、24 時間サイクルと週末/平日サイクルの 2 つのトレンドパターンに大きく依存しています。これら 2 つの季節的な影響をキャプチャするために、時間別アルゴリズムでは、上記と同じアプローチを使用して、週末と平日に 2 つの異なるモデルを作成します。

時間別トレンドのトレーニングウィンドウは、336 時間のルックバックウィンドウに依存します。

毎週および毎月の精度の異常値検出

毎週および毎月のトレンドは、毎日または毎時の精度で見つかったのと同じ毎週または毎日のトレンドを示さないので、そのような別のアルゴリズムが使用されます。毎週および毎月の頻度で、2 ステップの異常値検出アプローチは、Generalized Extreme Studentized Deviate （GESD）テストとして知られています。このテストでは、異常値の最大数を決定するために、調整済みボックスプロットアプローチ（異常値検出の非パラメトリック手法）と組み合わせて、予想される異常値の最大数を考慮します。次の 2 つの手順があります。

調整済みボックスプロット関数：この関数は、入力データの指定された異常値の最大数を決定します。
GESD 関数：手順 1 の出力を使用して入力データに適用します。

次に、休日と季節異常値検出ステップでは、今年のデータから昨年のデータを減算します。その後、上記の 2 ステップのプロセスを使用してデータを再度繰り返し、異常値が季節的に適切であることを確認します。これらのデータ精度のそれぞれは、選択したレポート日付範囲（15 ヶ月または 15 週間のどちらか）を含む 15 期間のルックバックおよびトレーニングに関する対応する日付範囲 1 年前を使用します。

recommendation-more-help

080e5213-7aa2-40d6-9dba-18945e892f79