A/B 테스트를 얼마 동안 실행해야 합니까?

A successful A/B Test activity requires an adequate number of visitors (sample size) to improve your conversion rate, but how do you know how long to run an A/B test? This article contains information about Auto-Allocate activities and the Adobe Target Sample Size Calculator to help you ensure that your activity has a sufficient number of visitors to achieve your goals.

오퍼들 중 하나의 성과가 활동의 처음 몇 일 내에 다른 오퍼보다 훨씬 더 낫거나 훨씬 나쁘면 활동을 중지하려는 마음이 생길 수 있습니다. 그러나 관찰 수가 낮으면 낮은 방문자 수에 대해 전환율 평균을 내므로 뜻밖에 양수 상승도나 음수 상승도가 관찰될 가능성이 높습니다. 활동이 더 많은 데이터 포인트를 수집함에 따라, 전환율이 해당하는 실제 장기간 값에 수렴합니다.

IMPORTANT

활동을 조기에 중지하면 A/B 테스트를 수행할 때 발생할 수 있는 10가지 중요한 문제 중 하나가 됩니다. 자세한 내용은 일반적인 A/B 테스트 문제와 이를 방지하는 방법을 참조하십시오.

Target 활동의 샘플 크기가 커서 전환 목표를 달성할 수 있는 도구를 제공합니다.자동 할당.

자동 할당

An Auto-Allocate activity is a type of A/B test that identifies a winner among two or more experiences and automatically reallocates more traffic to the winner to increase conversions while the test continues to run and learn.

표준 A/B 테스트에는 기본 비용이 있습니다. 각 경험의 성과를 측정하고 분석을 통해 가장 성과가 좋은 경험을 알아내는 데 트래픽을 사용해야 합니다. 일부 경험이 다른 경험에 비해 성과가 더 좋다는 것을 인지한 후에도 트래픽 분배가 고정적으로 유지됩니다. 또한 샘플 크기를 알아내는 것도 복잡하며, 활동의 전체 과정을 실행해야 승자에 대해 작업할 수 있습니다. 이 모든 일을 수행한 후에도 여전히 식별된 승자가 실제 승자가 아닐 가능성도 있습니다.

The solution is Auto-Allocate. 자동 할당은 이러한 비용과 우승 경험을 알아내는 데 드는 오버헤드를 줄여줍니다. 자동 할당 기능에서는 모든 경험의 목표 지표 성과를 모니터링하고, 성과가 좋은 경험에는 비례하여 더 많은 새 참여자를 보냅니다. 다른 경험을 탐색하도록 충분한 트래픽이 예약되어 있습니다. 활동이 여전히 실행 중임에도 불구하고, 결과상의 활동에 대한 이점을 볼 수 있습니다.최적화는 학습과 병행합니다.

자동 할당은 활동을 끝까지 수행하여 승자를 완전히 판별할 때까지 기다리게 하기보다는 방문자를 성과가 우승 경험으로 점차적으로 이동시킵니다. 덜 성공적인 경험으로 보내졌을 활동 참여자가 잠재적으로 우승 경험으로 표시되므로 더 빠른 성과 향상(상승도)의 혜택을 얻을 수 있습니다.

자동 할당 기능을 사용하는 경우 Target에서는 활동이 충분히 신뢰할 수 있는 최소 전환 수에 도달하기 전까지 활동의 페이지 상단에 "아직 우승자 없음" 배지가 표시됩니다. Target 그런 다음 활동 페이지의 맨 위에 배지를 표시하여 우승 경험을 선언합니다.

For more information, see Auto-Allocate overview.

Adobe Target 샘플 크기 계산기

If you choose to use a manual A/B Test activity rather than Auto-Allocate, the Target Sample Size Calculator helps you determine the sample size needed for a successful test. 수동 A/B 테스트는 고정된 지평선 테스트이므로 계산기가 매우 유용합니다. 자동 할당 활동은 자동 할당 이 우승자를 선언하므로 계산기를 사용하여 선택 사항입니다. 이 계산기는 필요한 샘플 크기의 대략적인 견적을 제공합니다. 계산기 사용 방법에 대한 자세한 내용을 계속 확인하십시오.

Before setting up your A/B test, access the Adobe Target sample size calculator.

Adobe Target 샘플 크기 계산기

A/B 테스트를 수행하기 전에 결과를 평가하기 전에 활동을 실행해야 하는 시간을 설정하려면 적절한 샘플 크기(방문자 수)를 결정해야 합니다. 통계적 중요도가 달성될 때까지 활동을 모니터링하면 신뢰 구간이 너무 과소 평가되어 테스트를 신뢰할 수 없게 됩니다. 이러한 결과 때문에 통계적으로 유의미한 결과가 감지되는 경우 테스트가 중지되고 승자가 선언됩니다. 그러나 결과가 통계적으로 유의미하지 않다면 테스트는 계속될 것이고, 이러한 절차는 긍정 오류(false positive) 비율을 증가시키는 긍정적인 결과를 매우 편애하는 것이므로, 테스트의 유효한 유의 수준이 왜곡됩니다.

이로 인해 많은 긍정 오류(false positive)가 발생하여 장기간 실행에서 예측된 상승도를 제공하지 않는 오퍼가 구현될 수 있습니다. 낮은 리프트는 만족스럽지 못한 결과이지만 더 심각한 결과는 시간이 지남에 따라 정확히 예측하지 못하는 것이 실질적으로 조직의 신뢰를 손상시키는 것이다.

이 문서에서는 샘플 크기가 결정될 때 균형을 맞춰야 하는 요소들에 대해 설명하고 적절한 샘플 크기 예측을 위한 스프레드시트 계산기를 소개합니다. A/B 테스트가 시작되기 전에 샘플 크기 계산기(위에 제공된 링크)를 사용하여 샘플 크기를 계산하면 통계 표준을 준수하는 고품질의 A/B 테스트를 항상 실행할 수 있습니다.

A/B 테스트를 정의하는 5개의 사용자 정의 매개 변수가 있습니다. 이 매개 변수는 상호 연결되어 있으므로 네 개 매개 변수를 설정하면 다섯 번째 매개 변수를 계산할 수 있습니다.

  • 통계적 유의도
  • 통계적 검증력
  • 확실히 감지 가능한 최소 상승도
  • 베이스라인 전환율
  • 방문자 수

A/B 테스트의 경우, 통계적 유의도, 통계적 검증력, 확실히 감지 가능한 최소 상승도 및 베이스라인 전환율은 분석가에 의해 설정되며 그런 다음 필요한 방문자 수가 이러한 수치들로부터 계산됩니다. 이 문서에서는 이러한 요소들에 대해 설명하고 특정 테스트를 위한 요소를 결정하는 방법을 안내합니다.

아래 그림은 A/B 테스트의 네 가지 가능한 결과를 보여줍니다.

긍정 오류(false positive) 또는 부정 오류(false negative)가 발생하지 않는 것이 좋지만, 통계적 테스트에서 이것은 보장할 수 없습니다. 관찰된 트렌드가 기본 전환율을 대표하지 않을 가능성은 항상 있습니다. 예를 들어, 동전 던지기의 앞면이나 뒷면이 더 그럴 가능성이 있는지 알아보기 위한 테스트에서, 비록 공평한 동전이 있더라도, 당신은 우연히 10개의 면에 10개의 앞면을 얻을 수 있다. 통계적 유의도 및 검증력은 긍정 오류(false positive)와 부정 오류(false negative) 비율을 결정하는 데 도움이 되며, 지정된 테스트에 대해 이러한 비율을 합리적인 수준으로 유지할 수 있도록 해줍니다.

통계적 유의도

테스트의 중요도 수준은 실제 차이가 없는 경우 테스트가 두 개의 서로 다른 오퍼 간의 전환율에 상당한 차이를 보고하는지 여부를 결정합니다. 이를 긍정 오류(false positive) 또는 제1종 과오라고 합니다. 중요도 레벨은 사용자가 지정한 임계값이며, 잘못된 양수에 대한 허용치와 테스트에 포함되어야 하는 방문자 수 간의 상쇄 유형입니다.

A/B 테스트를 시작할 때에는 두 오퍼의 전환율이 모두 동일하다고 가정합니다. 그런 다음 관찰된 결과의 확률을 이 가정을 기반으로 계산합니다. If this probability (the p-value) is smaller than some predefined threshold (the significance level), Target concludes that the initial assumption–that both offers have the same conversion rate–is incorrect and, therefore, the conversion rates of A and B are statistically different at the given significance level.

A/B 테스트에서 일반적으로 사용되는 유의 수준은 5%이며 이는 95% 신뢰 수준에 해당합니다(신뢰 수준 = 100% - 유의 수준). 신뢰 수준 95%는 테스트를 수행할 때마다, 오퍼 간 차이가 없더라도 통계적으로 유의미한 상승도를 감지할 확률이 5% 있음을 의미합니다.

신뢰 수준에 대한 일반적인 해석은 아래 표에 요약되어 있습니다.

신뢰도 수준 해석
< 90% 전환율 간에 차이가 있다는 증거가 없음
90 ~ 95% 전환율 간에 차이가 있다는 증거가 약함
95 ~ 99% 전환율 간에 차이가 있다는 증거가 보통임
99 ~ 99.9% 전환율 간에 차이가 있다는 증거가 강함
+99.9% 전환율 간에 차이가 있다는 증거가 매우 강함

항상 95% 이상의 신뢰 수준을 사용하는 것이 좋습니다.

테스트에서 긍정 오류(false positive)가 많이 발생하지 않도록 가장 높은 신뢰 수준을 사용하는 것이 좋습니다. 그러나 높은 신뢰 수준을 사용할수록 더 많은 수의 방문자가 필요하며 그럴 경우 테스트를 수행하는 데 필요한 시간이 늘어납니다. 또한 신뢰 수준이 증가하면 통계적 검증력은 감소합니다.

통계적 검증력

A/B 테스트의 통계적 검증력은 특정 규모의 전환율에서 실제 차이를 감지하는 확률입니다. 전환 이벤트의 무작위(확률론적) 특성으로 인해 두 오퍼 간의 실제 전환율 차이가 있더라도 통계적으로 유의미한 차이가 관찰되지 않을 수 있습니다(단순한 우연으로). 이를 부정 오류(false negative) 또는 제2종 과오라고 합니다.

통계적 유의도와 대조적으로 통계적 검증력의 결정은 A/B 테스트를 수행하지 않아도 되므로 통계적 검증력은 종종 무시됩니다. 그러나 통계적 검증력을 무시하면, 너무 작은 샘플 크기로 인해 다양한 오퍼의 전환율 간 실제 차이가 테스트에서 감지되지 않을 가능성이 큽니다. 이렇게 되면 긍정 오류(false positive)가 테스트를 지배합니다.

따라서 테스트에서 실질적인 전환율 차이를 식별할 가능성이 크고, 부정 오류(false negative)가 많이 나오지 않도록 높은 통계적 검증력을 확보하는 것이 바람직합니다. 그러나 주어진 상승도를 감지하는 통계적 검증력을 높이기 위해서는 많은 방문자가 필요하며, 이에 따라 테스트를 수행하는 데 필요한 시간이 늘어납니다.

통계적 검증력에 일반적으로 사용되는 값은 80%이며, 이 값은 테스트에서 확실히 감지 가능한 최소 상승도와 같은 차이를 감지할 확률이 80%임을 의미합니다. 이 테스트에서는 작은 상승도를 감지할 확률은 낮고, 큰 상승도를 감지할 확률은 높습니다.

확실히 감지 가능한 최소 상승도

작은 상승도라도 구현할 가치는 있으므로 대부분의 조직은 전환율에서 가장 작은 가능한 차이를 측정하려고 합니다. 하지만 A/B 테스트에서 매우 작은 상승도를 감지할 확률을 높이려면 테스트에 포함해야 하는 방문자 수는 엄청나게 커집니다. 그 이유는 전환율 차이가 작은 경우 차이 식별을 위해서는 두 전환율을 모두 높은 정확도로 계산해야 하는데, 이를 위해서는 많은 수의 방문자가 필요하기 때문입니다. 따라서 확실히 감지 가능한 최소 상승도는 작은 상승도를 감지하는 것과 오랜 시간 동안 테스트를 실행하는 것 사이의 균형점을 고려하는 비즈니스 요구 사항으로 결정해야 합니다.

예를 들어, 두 오퍼(A 및 B)의 실제 전환율이 각각 10%와 15%라고 가정할 때, 이 오퍼들이 각각 100명의 방문자에게 표시된다면 전환의 확률론적 특성으로 인해 오퍼 A의 경우 4% ~ 16% 범위, 오퍼 B의 경우 8% ~ 22% 범위의 전환율을 관찰할 확률은 95% 있습니다. 이 범위들은 통계에서 신뢰 구간이라고 하며, 예상 전환율의 정확성에 대한 신뢰도를 나타냅니다. 샘플 크기가 클수록(더 많은 방문자) 전환율의 추정값이 정확하다는 것을 더 확신할 수 있습니다.

아래 그림은 이러한 확률 분포를 보여줍니다.

두 범위가 크게 겹치므로 이 테스트는 전환율이 다른지 여부를 판결할 수 없습니다. 따라서 방문자가 100명인 이 테스트는 두 오퍼를 구별할 수 없습니다. 그러나 오퍼를 5,000명의 방문자에게 노출한다면, 관찰된 전환율이 각각 9% ~ 11%와 14% ~ 16%의 범위에 속하게 될 가능성이 95% 있습니다.

이 경우 테스트에서 잘못된 결과가 나을 가능성은 매우 낮으므로 방문자가 5,000명인 테스트라면 두 오퍼를 구별할 수 있습니다. 방문자가 5,000명인 테스트의 신뢰 구간은 약 +/-1%입니다. 이것은 테스트에서 약 1%의 차이를 감지할 수 있음을 의미합니다. 따라서 오퍼의 실제 전환율이 10%와 15%가 아니라 10%와 10.5%처럼 1% 미만의 차이가 나는 경우에는 훨씬 더 많은 방문자가 필요합니다.

베이스라인 전환율

베이스라인 전환율은 통제 오퍼(오퍼 A)의 전환율입니다. 종종 이전 경험을 기반으로 오퍼의 전환 수준을 적절하게 파악할 수 있습니다. 새 유형의 오퍼 또는 크리에이티브인 이유로 파악하기 어려운 경우에는, 샘플 크기 계산에 사용할 수 있는 대략적인 베이스라인 전환율 추정치를 얻을 수 있도록 테스트를 하루 동안 실행할 수 있습니다.

방문자 수

장시간 동안의 테스트 실행 기회비용과 긍정 오류(false positive) 및 부정 오류(false negative)의 위험 사이에 균형을 이루는 것은 어려울 수 있습니다. 분명, 틀린 결정을 내려서도 안 되지만 너무 엄격하거나 융통성 없는 테스트 표준으로 인해 테스트가 무력해지는 것도 바람직하지 않습니다.

따라서 일반 지침으로서 95% 신뢰 수준과 80% 통계적 검증력이 권장됩니다.

샘플 크기 계산기(위에 제공된 링크)는 통계적 유의도(권장: 95%) 및 통계적 검증력(권장: 80%)으로 결정하도록 요구합니다. 모든 오퍼에 대한 베이스라인 전환율과 일별 트래픽을 입력하면 스프레드시트에서는 테스트의 지정된 검증력과 동일한 확률로 1%, 2%, 5%, 10%, 15%, 20%의 상승도를 감지하는 데 필요한 방문자 수를 출력합니다. 사용자가 스프레드시트에서 확실히 감지 가능한 사용자 지정 최소 상승도를 입력할 수도 있습니다. 더욱이 스프레드시트에서는 사용자가 입력한 트래픽 수준을 기반으로 테스트에 필요한 주 수를 출력합니다. 필요한 주 수는 결과에 영향을 미치는 요일 효과를 방지하기 위해 가장 가까운 정수로 올림됩니다.

테스트에서 확실히 식별할 수 있는 최소 상승도와 필요한 방문자 수 간에는 균형점이 있습니다. 베이스라인(통제) 전환율 5%에 유효한 아래 그림에서는 방문자 수를 늘리기 위한 급격히 감소하는 수익을 보여줍니다. 확실히 감지할 수 있는 최소 상승도는 테스트에 처음 몇 명의 방문자를 추가할 때에는 엄청나게 개선되지만, 테스트를 개선하기 위해서는 점점 더 많은 방문자를 필요로 합니다. 이 그림은 테스트를 실행하는 데 필요한 시간(필요한 방문자 및 사이트 트래픽에 의해 결정된 대로)과 테스트에서 확실히 감지할 수 있는 최소 상승도 간의 적절한 균형점을 찾는 데 도움이 됩니다.

이 예에서는 100개의 테스트 중 80개에서 5%(대안 오퍼의 전환율(100%+5%)5% = 5.25%에 해당)의 상승도를 감지할 수 있는 것이 적절하고, 따라서 각 오퍼에 대해 100,000명이라는 방문자 샘플 크기가 필요하다고 결정할 수 있습니다. 사이트에 하루에 20,000명의 방문자가 있고 두 개의 오퍼를 테스트하는 중이라면, 대안 오퍼가 통제 오퍼보다 통계적으로 유의미하게 우수한지 여부를 판별하려면 먼저 2100,000/20,000 = 10일 동안 테스트를 실행할 수 있어야 합니다.

이때도 필요한 시간은 요일 효과가 방지하도록 항상 가장 가까운 정수 주 수로 올림하는 것이 좋습니다. 따라서 이 예에서는 결과를 평가하기 전 2주 동안 테스트가 실행됩니다.

방문당 수입(RPV) 지표

방문당 수입(RPV)을 지표로 사용할 때 RPV는 주문당 수익과 전환율의 곱(RPV = 수익 / 방문자# = (주문당 수익 * 주문#) / 방문자# = 주문당 수익 * (방문자# * CTR) / 방문자# = 주문당 수익 * CTR)이고 각각은 자체 변화가 있으므로 추가적인 변화 소스가 추가됩니다. 전환율의 차이는 수학 모델을 사용하여 직접 계산할 수 있지만 주문당 매출액의 변화는 활동에 따라 다릅니다. 따라서 과거 활동에서 이러한 변화에 대한 지식을 사용하거나 몇 일 동안 A/B 테스트를 실행하여 매출에서의 변화를 예측할 수 있습니다. 분산은 CSV 다운로드 파일에 있는 판매 합계, 판매 제곱 및 방문자 수의 값에서 계산됩니다. 이 설정이 완료되면 스프레드시트를 사용하여 테스트를 완료하는 데 필요한 시간을 계산합니다.

샘플 크기 계산기(위에 제공된 링크)는 RPV 지표를 구성하는 데 도움이 될 수 있습니다. When you open the calculator, you'll see a tab labeled RPV Metric. RPV 버전의 계산기를 사용할 때에는 다음 정보가 필요합니다.

  • 통제 오퍼에 대한 방문자 수

  • 통제 오퍼에 대한 총 수익

    예외적인 주문 필터가 선택되어 있는지 확인합니다.

  • 통제 오퍼에 대한 수익 제곱의 합계

    예외적인 주문 필터가 선택되었는지 확인하십시오.

일반적으로 RPV를 지표로 사용하는 경우 동일한 수준의 측정 향상도에 대해 동일한 통계적 신뢰 수준을 달성하려면 20-30%가 더 오래 필요합니다. 이것은 RPV가 전환당 다른 주문 크기의 추가된 변화를 가지고 있기 때문입니다. 이는 최종 비즈니스 의사 결정을 기준으로 할 지표로 직선 전환율과 RPV 중에서 선택할 때 고려해야 할 사항입니다.

Correction for comparing multiple offers

두 오퍼를 비교할 때마다 긍정 오류(false positive)를 얻을 확률(전환율에 차이가 없는 경우에도 통계적으로 유의미한 차이를 관찰하여)은 유의 수준과 동일합니다. 예를 들어, 5개의 오퍼 A/B/C/D/E가 있고 A가 통제 오퍼라면, 개의 비교가 수행되고(통제와 B, 통제와 C, 통제와 D, 통제와 E), 신뢰 수준이 95%일 때에도 긍정 오류(false positive)의 확률은 18.5%입니다. Pr(긍정 오류가 하나 이상) = 1 - Pr(긍정 오류가 없음) = 1 - 0.954 = 18.5%이기 때문입니다. 긍정 오류(false positive)는 대안과 통제 간에 사실상 차이가 없을 때 통제가 대안보다 낫다고 보고되거나 대안이 통제보다 낫다고 보고되는 것 중 하나로 정의되는 컨텍스트에서 발생합니다.

결론

By using an Auto-Allocate activity, Target identifies a winner among two or more experiences and automatically reallocates more traffic to the winner to increase conversions while the test continues to run and learn. 자동 지정을 통해 추측 작업을 제거하는 동시에 변환 목표를 쉽게 달성할 수 있습니다.

이 문서에 소개된 샘플 크기 계산기(위에 제공된 링크)를 사용하고 이 계산기에서 제안하는 시간 동안 테스트가 실행되도록 하면, 여러분이 특정 테스트에 대해 적절하다고 결정한 긍정 오류(false positive)와 부정 오류(false negative) 비율을 따르는 고품질의 A/B 테스트를 항상 수행할 수 있습니다. 이렇게 하면 테스트가 일관되며 찾고 있는 상승도를 확실히 감지할 수 있습니다.

이 페이지에서는