예측 서비스에 사용되는 통계 기법

예측 서비스는 현재 Promise를 지원하며 대부분의 데이터에 대해 효율적이고 안정적으로 작동하는 것으로 나타났습니다. 예언자는 메타가 개발한 널리 사용되는 오픈소스 예측 패키지다. 트렌드, 계절성 및 이벤트 구성 요소로 데이터를 분해합니다. Promise 모델은 효율적이며 많은 예측 애플리케이션에 맞게 확장됩니다. 또한 모델은 이상치 및 누락된 데이터에 대해 강력하게 작동합니다.

앞으로는 데이터 스트리밍을 위한 온라인 개산가우스 프로세스나 사용자가 최상의 예측 정확도를 지정하고 더 긴 대기 시간을 견딜 수 있는 뉴럴 프로페터를 선택하는 등 휴리스틱스에 기반한 모델을 선택할 계획이다.

응답 시간을 보장하기 위해 데이터 포인트가 너무 많을 때 서비스는 데이터를 자동으로 다운스케일합니다. 타겟 응답 시간은 ~3초로 설정되어 있습니다. 현재, 데이터 포인트가 5500개를 초과하는 경우, 데이터의 길이에 따라 적응적으로 시계열 데이터를 다운 샘플링한다. 출력이 원래 데이터 빈도로 다시 변환되므로 적응형 샘플링 프로세스는 사용자 경험에 영향을 주지 않습니다.

여러 해의 데이터를 사용할 수 있는 경우 휴일 효과를 고려합니다. 현재 고려 중인 휴일 목록은 다음과 같습니다.

  • 마틴 루터 킹 데이
  • 대통령의 날
  • 메모리얼 데이
  • 7월 4일
  • 추수감사절
  • 블랙 프라이데이
  • 사이버 먼데이
  • 크리스마스

이 서비스는 예를 들어 6시그마 범위를 벗어나는 데이터 포인트를 제거하여 간단한 예외 항목(이상치)을 제거할 수도 있습니다. 모든 데이터 포인트가 유효하다고 가정하므로 기본적으로 활성화되지 않습니다. 일반적으로 예언자 모형은 이상치에 탄력성이 있음에도 불구하고 예외 현상은 모형 품질에 부정적인 영향을 미칠 수 있다.

이 서비스는 사용자가 지정한 시즌 설정(예: 일별 및 주별 시즌)을 수락합니다. 그렇지 않으면 모델은 계절성을 자동으로 선택합니다. 다양한 데이터 세부 기간에 대해 이 서비스는 다양한 길이의 내역 데이터를 사용하여 예측 모델을 구축합니다. 예를 들어 일별 데이터의 경우 1년 이상의 데이터를 가져옵니다(가능한 경우). 시간별 데이터의 경우 8주의 데이터를 가져옵니다(가능한 경우). 데이터를 가져오는 데 시간이 많이 소요될 수 있으며 경우에 따라 대기 시간이 길어질 수 있습니다.

다양한 시간 세부기간에 필요한 내역 데이터:

세부 기간
내역 데이터 필요
3일
시간
2주
8주
2년
2년
분기
8분기
8년

지정된 각 시간에 대한 예측 결과는 예측 간격(하한 및 상한으로 정의됨)과 함께 나타나며, 이는 종종 신뢰 간격이라고도 하는 시간의 95% 이후의 관찰 값을 포함할 것으로 예상됩니다. 서비스가 미래를 어디까지 예측할 수 있는지에는 제한이 없다. 그러나 예측의 불확실성은 시간이 지남에 따라 더 큰 예측 간격으로 반영되어 미래로 갈수록 증가합니다.

서비스는 사용자 데이터에 대한 가정을 하지 않습니다. 예를 들어 이 서비스는 데이터가 음수가 아니라고 가정하지 않습니다. 이는 관찰된 모든 데이터 포인트가 음수가 아님에도 불구하고 데이터가 강력한 하향 추세를 나타내는 경우 예측 및/또는 경계가 음수가 될 수 있음을 의미합니다.

참조

  1. 테일러, 숀 J. 그리고 벤자민 레담입니다. 규모에 맞게 예측. 미국 통계학자 72.1 (2018): 37-45.
  2. 트리베, 오스카 외.: Neuralpropher : 규모에 대한 설명 가능한 예측. arXiv 사전 인쇄 arXiv:2111.15397(2021).
  3. Zhang and Arbour: 시계열 예외 항목 탐지. 미국 특허 출원 #18/057883.
recommendation-more-help
080e5213-7aa2-40d6-9dba-18945e892f79