실험 보고서의 통계 계산 이해 experiment-report-calculations
이 페이지에서는 Adobe Journey Optimizer의 캠페인에 대한 실험 보고서에 사용된 자세한 통계 계산을 문서화합니다.
이 페이지는 기술 사용자를 대상으로 합니다.
전환율
전환율 또는 평균, μν 각 처치에 대해 ν
실험에서는 해당 지표에 할당된 프로필 수에 대한 지표의 합계, N의 비율로 정의됩니다ν:
여기, Yiν 는 각 프로필에 대한 목표 지표의 값입니다 i
, 지정된 변형에 할당됨 ν. 목표 지표가 "고유" 지표인 경우, 즉 특정 작업을 수행하는 프로필 수 카운트인 경우 전환율로 표시되고 백분율로 포맷됩니다. 지표가 "count" 또는 "total value" 지표인 경우(예: 이메일 열기, 각각 매출), 지표에 대한 평균 예상치가 "프로필당 개수" 또는 "프로필당 값"으로 표시됩니다.
필요한 경우 다음 표현식과 함께 샘플 표준 편차가 사용됩니다.
상승도 lift
변형 간 상승도 ν, 및 제어 변형 ν0 은 전환율의 상대적 "델타"로서, 개별 전환율이 위에 정의된 대로 아래 계산으로 정의됩니다. 백분율로 표시됩니다.
개별 치료에 대한 항시 유효한 신뢰 구간
여정 실험 패널에는 실험의 개별 처리에 대한 "언제든지 유효한" 신뢰 구간(신뢰 시퀀스)이 표시됩니다.
개별 변형에 대한 신뢰 시퀀스 ν
는 Adobe에서 사용하는 통계 방법론의 중심입니다. 에서 해당 정의를 찾을 수 있습니다. 이 페이지 (복제 위치: [Waudby-Smith 외.]).
대상 매개 변수를 추정하고자 하는 경우 ψ
실험의 변형의 전환율과 같이 '고정 시간' 신뢰 구간(CI) 시퀀스와 시간 균일 신뢰 시퀀스(CS) 간의 이분법은 다음과 같이 요약할 수 있습니다.
정규 신뢰 구간의 경우, 확률론적으로 대상 매개 변수가 값 범위() 내에 있음을 보장합니다n 은(는) 다음의 고정된 단일 값에서만 유효합니다. n
(여기서 n
는 샘플 수입니다). 반대로 신뢰 시퀀스의 경우, 우리는 항상 표본 크기의 모든 값/시간이 보장됩니다 t
, 관심 매개 변수의 "true" 값이 경계 내에 있습니다.
이는 온라인 테스트에 매우 중요한 몇 가지 중요한 의미를 갖습니다.
- CS는 새로운 데이터가 이용 가능하게 될 때마다 선택적으로 업데이트될 수 있다.
- 실험은 지속적으로 모니터링되거나, 적응적으로 중단되거나, 또는 계속될 수 있다.
- type-I 오류는 데이터 종속 시간을 포함하여 모든 중지 시간에 제어됩니다.
Adobe은 평균 추정치가 있는 개별 변형에 대해 점근 신뢰 시퀀스를 사용합니다 μ
에는 다음 양식이 있습니다.
위치:
N
는 해당 변형의 단위 수입니다.σ
는 표준 편차의 샘플 추정입니다(위에서 정의됨).α
는 원하는 유형 I 오류 레벨(또는 잘못 적용 가능성)입니다. 항상 0.05로 설정됩니다.- ρ 2 는 CS가 가장 조이는 샘플 크기를 조정하는 상수입니다. Adobe은 ρ의 보편적인 값을 선택했다 2 = 10 -2.8 온라인 실험에서 볼 수 있는 전환율 유형에 적합합니다.
신뢰도 confidence
Adobe이 사용하는 신뢰도는 "항시 유효한" 신뢰도로, 평균 처리 효과에 대한 신뢰 순서를 반전시켜서 구한다.
정확히 말하자면, 두 개의 샘플에서 t 두 변형 간의 평균 차이를 테스트합니다. 사이에는 1:1 매핑이 있습니다. p-이 테스트의 값과 수단의 차이에 대한 신뢰 구간. 비유하자면, 언제나 유효한 p-value는 평균 처리 효과 추정기에 대한 (항시 유효한) 신뢰 시퀀스를 반전하여 구할 수 있습니다.
여기, E 는 기대입니다. 사용된 추정기는 역성향 가중치(IPW) 추정기이다. N = N으로 간주합니다.0 +N1 단위, 각 단위에 대한 변형 할당 i
에 의해 레이블이 지정됨i=0,1(장치가 변형에 할당된 경우) ν
=0,1. 사용자에게 고정 확률(성향) π가 지정된 경우0, (1-π)0), 결과 지표는 Y입니다.i를 구한 후 평균 처치효과에 대한 IPW 추정량은 다음과 같다.
에 주의하십시오. f 영향력 함수, Waudby-Smith et al. 이(가) 이 추정기에 대한 신뢰 시퀀스가 다음과 같음을 나타냈습니다.
할당 확률을 경험적 추정치로 대체: π0 = N0/N, 분산항은 개별 표본 평균 추정치 μ로 나타낼 수 있다0,1 및 표준 편차 추정치, σ0,1 다음으로:
다음으로, 검정 통계량 z = (μ)를 사용하는 정규 가설 검정을 상기한다A-μ0/σp) 다음 사이에 서신이 있습니다. p
-값 및 신뢰 구간:
위치 Φ
는 표준 표준의 누적 분포입니다. 언제든지 유효해 p
-values, 위에서 정의된 평균 처리 효과에 대한 신뢰 시퀀스가 주어지면 이 관계를 반전할 수 있습니다.
마지막으로 항시 유효한 신뢰도 은(는)
실험에 결론이 있다고 선언
두 팔이 있는 실험의 경우 Journey Optimizer 실험 패널에 실험이 이라는 메시지가 표시됩니다. 결론 항시 유효한 신뢰도가 95%를 초과하는 경우(즉, 항시 유효한 신뢰도) p
-value는 5% 미만입니다.)
2개 이상의 변형이 존재하는 경우, 가족 단위 오류율을 제어하기 위해 Bonferonni 보정이 적용된다. 을 사용한 실험용 K
처리 및 단일 기준(대조군) 처리에는 다음이 포함됩니다. K-1
독립 가설 테스트. 본페로니 수정은 항시 유효하다면, 통제와 주어진 변형이 동일한 수단을 가진다는 귀무 가설을 기각한다는 것을 의미한다 p
-value(위에 정의됨)가 임계값 아래에 있습니다. α/(K-1)
.
최상의 성능 암
실험이 확정적이라고 선언되면 가장 성과가 좋은 팔이 표시됩니다. 이것은 제어를 포함하는 세트 중에서 가장 우수한 성능(가장 높은 평균 또는 전환율)을 가진 팔과 p
-Bonferonni 임계값 아래에 있는 값.