통계 계산 이해 experiment-calculations
이 문서에서는 Adobe Journey Optimizer에서 실험을 실행할 때 사용되는 통계 계산에 대해 설명합니다.
실험에서는 고급 통계 방법을 사용하여 신뢰 시퀀스 및 신뢰도 를 계산합니다. 이를 통해 필요한 기간 동안 실험을 실행하고 결과를 지속적으로 모니터링할 수 있습니다.
이 문서에서는 실험의 작동 방식을 설명하고 Adobe의 항상 유효한 신뢰 시퀀스 에 대한 직관적인 소개를 제공합니다.
전문가 사용자의 경우 기술 세부 정보 및 참조는 이 페이지에 자세히 설명되어 있습니다.
통계 테스트 및 오류 제어 statistical-testing
실험을 실행할 때 두 집단 간에 차이가 있는지, 그리고 그 차이가 우연으로 인한 것일 가능성을 판단하려고 한다.
일반적으로 다음과 같은 두 가지 가설이 있습니다.
- 치료에 영향을 주지 않는다는 Null 가설 입니다.
- 대체 가설 은(는) 치료에 효과가 있음을 의미합니다.
통계적 유의성에서 목표는 귀무가설을 기각하기 위한 증거의 강도를 평가해 보는 것이다. 주목해야 할 한 가지 중요한 점은 통계적 유의성은 치료가 성공적일 가능성이 아니라 얼마나 달라질 가능성을 판단하기 위해 사용된다는 것입니다. 통계적 중요도가 Lift 와 함께 사용되는 이유입니다.
효과적인 실험에는 잘못된 추론을 야기할 수 있는 다양한 유형의 오류가 고려되어야 합니다.
위의 표에는 다양한 유형의 오류가 나와 있습니다.
-
긍정 오류(Type-I 오류): Null 가설을 잘못 거부했습니다(실제로는 true). 온라인 실험의 맥락에서 이것은 비록 동일하지만 결과 지표가 각 처리 간에 다르다는 잘못된 결론을 내리는 것을 의미한다.
실험을 실행하기 전에 일반적으로 임계값\alpha
을(를) 선택합니다. 실험이 실행되면p-value
이(가) 계산되고null if p < \alpha
이(가) 거부됩니다./alpha
을(를) 선택하는 것은 잘못된 답을 얻은 결과를 기반으로 합니다. 예를 들어 누군가의 삶에 영향을 줄 수 있는 임상 실험에서는\alpha = 0.005
을(를) 하기로 결정할 수 있습니다. 온라인 실험에서 일반적으로 사용되는 임계값은\alpha = 0.05
입니다. 즉, 장기적으로 100개의 실험 중 5개가 긍정 오류(false positive)일 것으로 예상됩니다. -
False Negatives(Type-II Errors): false이지만 Null 가설을 거부하지 못함을 의미합니다. 실험의 경우, 이것은 사실상 그것이 다를 때, 귀무 가설을 기각하지 않는다는 것을 의미한다. 이 유형의 오류를 제어하려면 일반적으로 실험에
1 - \beta
(즉, 1에서 유형 II 오류의 확률을 뺀 값)으로 정의된 특정 Power를 보장할 충분한 사용자가 있어야 합니다.
대부분의 통계 추론 기술을 사용하려면 판별할 효과 크기와 오류 허용 한도(\alpha
및 \beta
)를 기준으로 미리 샘플 크기를 수정해야 합니다. 그러나 Adobe Journey Optimizer의 방법론은 샘플 크기에 대해 결과를 지속적으로 볼 수 있도록 설계되었습니다.
Adobe 통계 방법: 항상 유효한 신뢰 시퀀스
신뢰 시퀀스 는 신뢰 구간 의 순차적 아날로그입니다(예: 실험을 백 번 반복하고 실험에 참여하는 모든 신규 사용자에 대해 평균 지표와 관련 95%-신뢰 시퀀스의 추정치를 계산하는 경우). 95% 신뢰 시퀀스에는 100개의 실험 중 95개의 지표의 실제 값이 포함됩니다. 95% 신뢰 구간은 모든 신규 사용자가 아닌 동일한 95% 적용 범위를 보장하기 위해 실험당 한 번만 계산할 수 있습니다. 따라서 신뢰 시퀀스를 사용하면 가양성 오류율을 증가시키지 않고 실험을 지속적으로 모니터링할 수 있습니다.
단일 실험에 대한 신뢰 시퀀스와 신뢰 구간 간의 차이는 아래 애니메이션에 표시됩니다.
신뢰 시퀀스 는 실험의 초점을 가설 테스트가 아닌 추정으로 전환합니다. 즉, 통계적 유의성의 임계값을 기반으로 귀무 가설을 거부할지 여부를 결정하는 대신, 처리 간 수단의 차이에 대한 정확한 추정에 초점을 맞춥니다.
그러나 p-values
또는 신뢰도 와(과) 신뢰 구간 간의 관계와 유사한 방식으로 신뢰 시퀀스 와(과) 항상 유효한 p-values
또는 항상 유효한 신뢰 간의 관계도 있습니다. 신뢰도와 같은 수량이 익숙하다면 Adobe은 신뢰 시퀀스 와 해당 보고서에 대한 유효한 신뢰도를 모두 제공합니다.
신뢰 시퀀스 의 이론적 기초는 martingales로 알려진 임의 변수의 시퀀스를 조사한 결과입니다. 아래 전문가 독자에 대한 몇 가지 주요 결과가 포함되었지만, 실무자의 취지는 명확합니다.
p-value
도 언제든지 해석해도 안전합니다.신뢰 시퀀스가 "유효한 시간"이므로, 동일한 샘플 크기에서 사용되는 고정 대상 기간 방법론보다 더 보수적일 것이라는 점을 참고하십시오. 신뢰 시퀀스의 경계는 일반적으로 신뢰 구간 계산보다 넓은 반면, 언제든지 유효한 신뢰도는 고정 대상 기간 신뢰 계산보다 작습니다. 이 보수의 이점은 여러분이 항상 여러분의 결과를 안전하게 해석할 수 있다는 것이다.
실험에 결론이 있다고 선언
실험 보고서를 볼 때마다 Adobe은 이 시점까지 실험에 누적된 데이터를 분석하고 항시 유효한 신뢰도가 적어도 하나의 처리에 대해 임계값 95%를 넘으면 실험을 "결정적"이라고 선언합니다.
이때 전환율 또는 프로필 표준화된 지표 값을 기반으로 가장 성과가 좋은 처리가 보고서 화면 맨 위에 강조 표시되고 테이블 형식 보고서에 별표로 표시됩니다. 기준선과 함께 95%보다 큰 신뢰도를 갖는 처리만이 이러한 결정에서 고려된다.
두 가지 이상의 치료법이 있을 때, 본페로니 수정 링크를 사용하여 여러 비교 문제를 수정하고, 가족 단위 오류율을 제어합니다. 이러한 시나리오에서, 신뢰도가 95%보다 크고 신뢰 구간이 겹치는 다수의 치료들이 존재할 수도 있다. 이 경우 Adobe Journey Optimizer은 전환율(또는 프로필 표준화된 지표 값)이 가장 높은 전환율을 최고의 수행자로 선언합니다.