통계 계산 이해 experiment-calculations

이 문서에서는 Adobe Journey Optimizer에서 실험을 실행할 때 사용되는 통계 계산에 대해 설명합니다.

실험에서는 고급 통계 방법을 사용하여 신뢰 시퀀스신뢰도 ​를 계산합니다. 이를 통해 필요한 기간 동안 실험을 실행하고 결과를 지속적으로 모니터링할 수 있습니다.

이 문서에서는 실험의 작동 방식을 설명하고 Adobe의 항상 유효한 신뢰 시퀀스 ​에 대한 직관적인 소개를 제공합니다.

전문가 사용자의 경우 기술 세부 정보 및 참조는 이 페이지에 자세히 설명되어 있습니다.

통계 테스트 및 오류 제어 statistical-testing

실험을 실행할 때 두 집단 간에 차이가 있는지, 그리고 그 차이가 우연으로 인한 것일 가능성을 판단하려고 한다.

일반적으로 다음과 같은 두 가지 가설이 있습니다.

  • 치료에 영향을 주지 않는다는 Null 가설 ​입니다.
  • 대체 가설 ​은(는) 치료에 효과가 있음을 의미합니다.

통계적 유의성에서 목표는 귀무가설을 기각하기 위한 증거의 강도를 평가해 보는 것이다. 주목해야 할 한 가지 중요한 점은 통계적 유의성은 치료가 성공적일 가능성이 아니라 얼마나 달라질 가능성을 판단하기 위해 사용된다는 것입니다. 통계적 중요도가 Lift ​와 함께 사용되는 이유입니다.

효과적인 실험에는 잘못된 추론을 야기할 수 있는 다양한 유형의 오류가 고려되어야 합니다.

위의 표에는 다양한 유형의 오류가 나와 있습니다.

  • 긍정 오류(Type-I 오류): Null 가설을 잘못 거부했습니다(실제로는 true). 온라인 실험의 맥락에서 이것은 비록 동일하지만 결과 지표가 각 처리 간에 다르다는 잘못된 결론을 내리는 것을 의미한다.

    실험을 실행하기 전에 일반적으로 임계값 \alpha을(를) 선택합니다. 실험이 실행되면 p-value이(가) 계산되고 null if p < \alpha이(가) 거부됩니다. /alpha을(를) 선택하는 것은 잘못된 답을 얻은 결과를 기반으로 합니다. 예를 들어 누군가의 삶에 영향을 줄 수 있는 임상 실험에서는 \alpha = 0.005을(를) 하기로 결정할 수 있습니다. 온라인 실험에서 일반적으로 사용되는 임계값은 \alpha = 0.05입니다. 즉, 장기적으로 100개의 실험 중 5개가 긍정 오류(false positive)일 것으로 예상됩니다.

  • False Negatives(Type-II Errors): false이지만 Null 가설을 거부하지 못함을 의미합니다. 실험의 경우, 이것은 사실상 그것이 다를 때, 귀무 가설을 기각하지 않는다는 것을 의미한다. 이 유형의 오류를 제어하려면 일반적으로 실험에 1 - \beta(즉, 1에서 유형 II 오류의 확률을 뺀 값)으로 정의된 특정 Power를 보장할 충분한 사용자가 있어야 합니다.

대부분의 통계 추론 기술을 사용하려면 판별할 효과 크기와 오류 허용 한도(\alpha\beta)를 기준으로 미리 샘플 크기를 수정해야 합니다. 그러나 Adobe Journey Optimizer의 방법론은 샘플 크기에 대해 결과를 지속적으로 볼 수 있도록 설계되었습니다.

Adobe 통계 방법: 항상 유효한 신뢰 시퀀스

신뢰 시퀀스 ​는 신뢰 구간 ​의 순차적 아날로그입니다(예: 실험을 백 번 반복하고 실험에 참여하는 모든 신규 사용자에 대해 평균 지표와 관련 95%-신뢰 시퀀스의 추정치를 계산하는 경우). 95% 신뢰 시퀀스에는 100개의 실험 중 95개의 지표의 실제 값이 포함됩니다. 95% 신뢰 구간은 모든 신규 사용자가 아닌 동일한 95% 적용 범위를 보장하기 위해 실험당 한 번만 계산할 수 있습니다. 따라서 신뢰 시퀀스를 사용하면 가양성 오류율을 증가시키지 않고 실험을 지속적으로 모니터링할 수 있습니다.

단일 실험에 대한 신뢰 시퀀스와 신뢰 구간 간의 차이는 아래 애니메이션에 표시됩니다.

신뢰 시퀀스 ​는 실험의 초점을 가설 테스트가 아닌 추정으로 전환합니다. 즉, 통계적 유의성의 임계값을 기반으로 귀무 가설을 거부할지 여부를 결정하는 대신, 처리 간 수단의 차이에 대한 정확한 추정에 초점을 맞춥니다.

그러나 p-values 또는 신뢰도 ​와(과) 신뢰 구간 간의 관계와 유사한 방식으로 신뢰 시퀀스 ​와(과) 항상 유효한 p-values 또는 항상 유효한 신뢰 간의 관계도 있습니다. 신뢰도와 같은 수량이 익숙하다면 Adobe은 신뢰 시퀀스 ​와 해당 보고서에 대한 유효한 신뢰도를 모두 제공합니다.

신뢰 시퀀스 ​의 이론적 기초는 martingales로 알려진 임의 변수의 시퀀스를 조사한 결과입니다. 아래 전문가 독자에 대한 몇 가지 주요 결과가 포함되었지만, 실무자의 취지는 명확합니다.

NOTE
신뢰 서열은 신뢰 구간의 안전한 순차적 유사체로 해석될 수 있다. 신뢰 구간을 사용하면 미리 결정된 샘플 크기에 도달한 후에만 실험을 해석할 수 있습니다. 그러나 신뢰 시퀀스를 사용하면 원하는 시간에 실험의 데이터를 보고 해석할 수 있으며 실험을 안전하게 중단하거나 계속할 수 있습니다. 해당 Any Time Valid Confidence 또는 p-value도 언제든지 해석해도 안전합니다.

신뢰 시퀀스가 "유효한 시간"이므로, 동일한 샘플 크기에서 사용되는 고정 대상 기간 방법론보다 더 보수적일 것이라는 점을 참고하십시오. 신뢰 시퀀스의 경계는 일반적으로 신뢰 구간 계산보다 넓은 반면, 언제든지 유효한 신뢰도는 고정 대상 기간 신뢰 계산보다 작습니다. 이 보수의 이점은 여러분이 항상 여러분의 결과를 안전하게 해석할 수 있다는 것이다.

실험에 결론이 있다고 선언

실험 보고서를 볼 때마다 Adobe은 이 시점까지 실험에 누적된 데이터를 분석하고 항시 유효한 신뢰도가 적어도 하나의 처리에 대해 임계값 95%를 넘으면 실험을 "결정적"이라고 선언합니다.

이때 전환율 또는 프로필 표준화된 지표 값을 기반으로 가장 성과가 좋은 처리가 보고서 화면 맨 위에 강조 표시되고 테이블 형식 보고서에 별표로 표시됩니다. 기준선과 함께 95%보다 큰 신뢰도를 갖는 처리만이 이러한 결정에서 고려된다.

두 가지 이상의 치료법이 있을 때, 본페로니 수정 링크를 사용하여 여러 비교 문제를 수정하고, 가족 단위 오류율을 제어합니다. 이러한 시나리오에서, 신뢰도가 95%보다 크고 신뢰 구간이 겹치는 다수의 치료들이 존재할 수도 있다. 이 경우 Adobe Journey Optimizer은 전환율(또는 프로필 표준화된 지표 값)이 가장 높은 전환율을 최고의 수행자로 선언합니다.

recommendation-more-help
b22c9c5d-9208-48f4-b874-1cefb8df4d76