실험 보고서의 통계 계산 이해 experiment-report-calculations

이 페이지에서는 Adobe Journey Optimizer의 캠페인에 대한 실험 보고서에 사용된 자세한 통계 계산을 문서화합니다.

이 페이지는 기술 사용자를 대상으로 합니다.

전환율

전환율 또는 평균, μν 각 처치에 대해 ν 실험에서는 해당 지표에 할당된 프로필 수에 대한 지표의 합계, N의 비율로 정의됩니다ν:

center-align w-125

여기, Y 는 각 프로필에 대한 목표 지표의 값입니다 i, 지정된 변형에 할당됨 ν. 목표 지표가 "고유" 지표인 경우, 즉 특정 작업을 수행하는 프로필 수 카운트인 경우 전환율로 표시되고 백분율로 포맷됩니다. 지표가 "count" 또는 "total value" 지표인 경우(예: 이메일 열기, 각각 매출), 지표에 대한 평균 예상치가 "프로필당 개수" 또는 "프로필당 값"으로 표시됩니다.

필요한 경우 다음 표현식과 함께 샘플 표준 편차가 사용됩니다.

center-align w-225

상승도 lift

변형 간 상승도 ν, 및 제어 변형 ν0 은 전환율의 상대적 "델타"로서, 개별 전환율이 위에 정의된 대로 아래 계산으로 정의됩니다. 백분율로 표시됩니다.

center-align w-125

개별 치료에 대한 항시 유효한 신뢰 구간

여정 실험 패널에는 실험의 개별 처리에 대한 "언제든지 유효한" 신뢰 구간(신뢰 시퀀스)이 표시됩니다.

개별 변형에 대한 신뢰 시퀀스 ν 는 Adobe에서 사용하는 통계 방법론의 중심입니다. 에서 해당 정의를 찾을 수 있습니다. 이 페이지 (복제 위치: [Waudby-Smith 외.]).

대상 매개 변수를 추정하고자 하는 경우 ψ 실험의 변형의 전환율과 같이 '고정 시간' 신뢰 구간(CI) 시퀀스와 시간 균일 신뢰 시퀀스(CS) 간의 이분법은 다음과 같이 요약할 수 있습니다.

center-align w-500

정규 신뢰 구간의 경우, 확률론적으로 대상 매개 변수가 값 범위() 내에 있음을 보장합니다n 은(는) 다음의 고정된 단일 값에서만 유효합니다. n (여기서 n 는 샘플 수입니다). 반대로 신뢰 시퀀스의 경우, 우리는 항상 표본 크기의 모든 값/시간이 보장됩니다 t, 관심 매개 변수의 "true" 값이 경계 내에 있습니다.

이는 온라인 테스트에 매우 중요한 몇 가지 중요한 의미를 갖습니다.

  • CS는 새로운 데이터가 이용 가능하게 될 때마다 선택적으로 업데이트될 수 있다.
  • 실험은 지속적으로 모니터링되거나, 적응적으로 중단되거나, 또는 계속될 수 있다.
  • type-I 오류는 데이터 종속 시간을 포함하여 모든 중지 시간에 제어됩니다.

Adobe은 평균 추정치가 있는 개별 변형에 대해 점근 신뢰 시퀀스를 사용합니다 μ 에는 다음 양식이 있습니다.

center-align w-300

위치:

  • N 는 해당 변형의 단위 수입니다.
  • σ 는 표준 편차의 샘플 추정입니다(위에서 정의됨).
  • α 는 원하는 유형 I 오류 레벨(또는 잘못 적용 가능성)입니다. 항상 0.05로 설정됩니다.
  • ρ 2 는 CS가 가장 조이는 샘플 크기를 조정하는 상수입니다. Adobe은 ρ의 보편적인 값을 선택했다 2 = 10 -2.8 온라인 실험에서 볼 수 있는 전환율 유형에 적합합니다.

신뢰도 confidence

Adobe이 사용하는 신뢰도는 "항시 유효한" 신뢰도로, 평균 처리 효과에 대한 신뢰 순서를 반전시켜서 구한다.

정확히 말하자면, 두 개의 샘플에서 t 두 변형 간의 평균 차이를 테스트합니다. 사이에는 1:1 매핑이 있습니다. p-이 테스트의 값과 수단의 차이에 대한 신뢰 구간. 비유하자면, 언제나 유효한 p-value는 평균 처리 효과 추정기에 대한 (항시 유효한) 신뢰 시퀀스를 반전하여 구할 수 있습니다.

center-align w-200

여기, E 는 기대입니다. 사용된 추정기는 역성향 가중치(IPW) 추정기이다. N = N으로 간주합니다.0 +N1 단위, 각 단위에 대한 변형 할당 i 에 의해 레이블이 지정됨i=0,1(장치가 변형에 할당된 경우) ν=0,1. 사용자에게 고정 확률(성향) π가 지정된 경우0, (1-π)0), 결과 지표는 Y입니다.i를 구한 후 평균 처치효과에 대한 IPW 추정량은 다음과 같다.

center-align w-400

에 주의하십시오. f 영향력 함수, Waudby-Smith et al. 이(가) 이 추정기에 대한 신뢰 시퀀스가 다음과 같음을 나타냈습니다.

center-align w-500

할당 확률을 경험적 추정치로 대체: π0 = N0/N, 분산항은 개별 표본 평균 추정치 μ로 나타낼 수 있다0,1 및 표준 편차 추정치, σ0,1 다음으로:

center-align w-500

다음으로, 검정 통계량 z = (μ)를 사용하는 정규 가설 검정을 상기한다A0p) 다음 사이에 서신이 있습니다. p-값 및 신뢰 구간:

center-align w-500

위치 Φ 는 표준 표준의 누적 분포입니다. 언제든지 유효해 p-values, 위에서 정의된 평균 처리 효과에 대한 신뢰 시퀀스가 주어지면 이 관계를 반전할 수 있습니다.

center-align w-600

마지막으로 항시 유효한 신뢰도 은(는)

center-align w-200

실험에 결론이 있다고 선언

두 팔이 있는 실험의 경우 Journey Optimizer 실험 패널에 실험이 이라는 메시지가 표시됩니다. 결론 항시 유효한 신뢰도가 95%를 초과하는 경우(즉, 항시 유효한 신뢰도) p-value는 5% 미만입니다.)

2개 이상의 변형이 존재하는 경우, 가족 단위 오류율을 제어하기 위해 Bonferonni 보정이 적용된다. 을 사용한 실험용 K 처리 및 단일 기준(대조군) 처리에는 다음이 포함됩니다. K-1 독립 가설 테스트. 본페로니 수정은 항시 유효하다면, 통제와 주어진 변형이 동일한 수단을 가진다는 귀무 가설을 기각한다는 것을 의미한다 p-value(위에 정의됨)가 임계값 아래에 있습니다. α/(K-1).

최상의 성능 암

실험이 확정적이라고 선언되면 가장 성과가 좋은 팔이 표시됩니다. 이것은 제어를 포함하는 세트 중에서 가장 우수한 성능(가장 높은 평균 또는 전환율)을 가진 팔과 p-Bonferonni 임계값 아래에 있는 값.

recommendation-more-help
b22c9c5d-9208-48f4-b874-1cefb8df4d76