予測サービスで使用される統計的手法
この予測サービスは現在、Prophet をサポートしており、ほとんどのデータに対して効率的かつ確実に機能することが示されています。 Prophet は、Meta が開発したオープンソースの予測パッケージで、広く使用されています。 データは、トレンド、季節性、イベントの構成要素に分解されます。 Prophet モデルは効率的で、多くの予測アプリケーションに適したスケールです。 さらに、モデルは異常値や欠落しているデータに対して確実に機能します。
今後は、ヒューリスティックに基づいてモデルを選択する計画があります。例えば、ストリーミングデータ用のオンライン近似ガウス法や、ユーザーが最適な予測精度を指定し、より長い待機時間に耐えることができる NeuralProphet を選択します。
このサービスは、データポイントが多すぎる場合にデータを自動的に縮小し、応答時間を確保します。 ターゲットの応答時間は約 3 秒に設定されています。 現在、データ点数が 5500 を超える場合、データの長さに応じて、時系列データが適応的にダウンサンプリングされます。 出力は元のデータ頻度に戻されるので、アダプティブサンプリングプロセスはユーザーエクスペリエンスに影響しません。
休暇の影響は、複数年のデータが使用可能な場合に考慮されます。 現在、検討中の休日のリストは次のとおりです。
- マーティン・ルーサー・キングの日
- 大統領の日
- メモリアルデー(米国のみ)
- 4 年 7 月(PT)
- 感謝祭(米国のみ)
- ブラックフライデー(米国のみ)
- サイバーマンデー(米国のみ)
- クリスマス
また、このサービスは、例えば、6 シグマの範囲外にあるデータポイントを削除することで、単純な異常値(異常値)の削除を実行することもできます。 すべてのデータポイントが有効であると想定されているので、この機能はデフォルトでは有効になっていません。 異常値は、Prophet モデルが一般的に異常値に対して回復力があるにもかかわらず、モデルの品質に悪影響を及ぼす可能性があります。
このサービスは、日次や週次などのユーザー指定の季節設定を受け入れます。 それ以外の場合、モデルは自動的に季節性を選択します。 データ精度が異なる場合、このサービスは様々な履歴データの長さを使用して予測モデルを作成します。 例えば、毎日のデータの場合、1 年以上のデータが取り込まれます(利用可能な場合)。 時間別データの場合は、(利用可能な場合は) 8 週間のデータを取り込みます。 データのプルには時間がかかり、場合によっては待機時間が長くなります。
様々な時間精度に必要な履歴データ:
指定された各時間の予測結果には、予測間隔(下限と上限で定義)が付属しています。この予測間隔には、時間の 95% (多くの場合、信頼区間と呼ばれる)の将来の観測値が含まれると想定されます。 サービスの将来の予測範囲に制限はありません。 ただし、日付の予測精度の不確実性は、時間の経過と共に予測間隔が広くなることで反映され、さらに将来にわたって増加します。
このサービスは、ユーザーデータに関する前提を一切行いません。 例えば、サービスはデータが負以外であると仮定しません。 つまり、観測されたすべてのデータポイントが負でない場合でも、データが強い下降傾向を示している場合、予測やその境界は負になる可能性があります。
参照
- Taylor, Sean J., and Benjamin Letham: 大規模な予測。アメリカの統計学者 72.1 (2018):37-45 を します。
- Triebe, Oskar, et al.: Neuralprophet:大規模な予測。 arXiv preprint arXiv:2111.15397 (2021).
- Zhang and Arbor: 時系列の異常値検出。 米国特許出願#18/057883.