A/B 테스트를 얼마 동안 실행해야 합니까?

마지막 업데이트: 2023-09-20
  • 주제:
  • A/B Tests
    이 항목에 대한 자세한 내용 보기

성공 A/B 테스트 의 활동 Adobe Target 전환율을 높이려면 충분한 방문자 수(샘플 크기)가 필요합니다. A/B 테스트를 실행하는 데 걸리는 시간을 어떻게 알 수 있습니까? 이 문서에는 다음에 대한 정보가 포함되어 있습니다. 자동 할당 활동 및 Adobe Target 샘플 크기 계산기 를 사용하여 활동에 목표를 달성할 수 있는 충분한 방문자가 있는지 확인할 수 있습니다.

오퍼 중 하나가 활동의 처음 며칠 동안 다른 오퍼보다 성과가 더 좋거나 더 나쁜 경우 활동을 중지할 수 있습니다. 그러나 관찰 수가 낮으면 낮은 방문자 수에 대해 전환율 평균을 내므로 뜻밖에 양수 상승도나 음수 상승도가 관찰될 가능성이 높습니다. 활동이 더 많은 데이터 포인트를 수집함에 따라, 전환율이 해당하는 실제 장기간 값에 수렴합니다.

중요

활동을 조기에 중지하는 것은 A/B 테스트를 수행할 때 발생할 수 있는 10가지 중요한 위험 중 하나입니다. 자세한 내용은 10가지 일반적인 A/B 테스트 위험 및 이를 피하는 방법.

Adobe Target 은 활동이 전환 목표를 달성하기에 충분한 샘플 크기를 갖도록 하는 데 도움이 되는 도구를 제공합니다. 자동 할당

자동 할당

An 자동 할당 활동은 둘 이상의 경험 중에서 승자를 식별하는 A/B 테스트 유형입니다. An 자동 할당 테스트가 계속 실행되고 학습되는 동안 변환을 늘리기 위해 더 많은 트래픽을 자동으로 승자에게 재할당합니다.

표준 A/B 테스트에는 기본 비용이 있습니다. 각 경험의 성과를 측정하고 분석을 통해 가장 성과가 좋은 경험을 알아내는 데 트래픽을 사용해야 합니다. 일부 경험이 다른 경험에 비해 성과가 더 좋다는 것을 인지한 후에도 트래픽 분배가 고정적으로 유지됩니다. 또한 샘플 크기를 알아내는 것도 복잡하며, 활동의 전체 과정을 실행해야 승자에 대해 작업할 수 있습니다. 그리고 확인된 승자가 진정한 승자가 아닐 가능성도 여전히 있다.

해결 방법은 다음과 같습니다. 자동 할당. 자동 할당은 이러한 비용과 우승 경험을 알아내는 데 드는 오버헤드를 줄여줍니다. ​ 자동 할당 기능에서는 모든 경험의 목표 지표 성과를 모니터링하고, 성과가 좋은 경험에는 비례하여 더 많은 새 참여자를 보냅니다. ​ 다른 경험을 탐색하도록 충분한 트래픽이 예약되어 있습니다. 활동이 아직 실행 중인 동안에도 활동의 이점을 결과에서 확인할 수 있습니다. 최적화는 학습과 동시에 수행됩니다.

자동 할당은 활동을 끝까지 수행하여 승자를 완전히 판별할 때까지 기다리게 하기보다는 방문자를 성과가 우승 경험으로 점차적으로 이동시킵니다. ​ 덜 성공적인 경험으로 보내졌을 활동 참여자가 잠재적으로 우승 경험으로 표시되므로 더 빠른 성과 향상(상승도)의 혜택을 얻을 수 있습니다.

사용 시 자동 할당, Target 활동이 충분한 신뢰도로 최소 전환 횟수에 도달할 때까지 "아직 우승자 없음"을 나타내는 배지를 활동 페이지 맨 위에 표시합니다. Target 그런 다음 활동의 페이지 맨 위에 배지를 표시하여 우승 경험을 선언합니다.

자세한 내용은 자동 할당 개요.

Adobe Target 샘플 크기 계산기

매뉴얼을 사용하기로 선택한 경우 A/B 테스트 활동 자동 할당, Target 샘플 크기 계산기는 성공적인 테스트에 필요한 샘플 크기를 결정하는 데 도움이 됩니다. 수동 A/B 테스트는 고정 기간 테스트이므로 계산기가 유용합니다. 계산기를 사용하여 자동 할당 다음 이유로 인해 활동이 선택 사항입니다. 자동 할당 승자를 선언합니다. 계산기는 필요한 샘플 크기에 대한 대략적인 추정치를 제공합니다. 계산기 사용 방법에 대한 자세한 내용을 계속 확인하십시오.

A/B 테스트를 설정하기 전에 Adobe Target 샘플 크기 계산기.

Adobe Target 샘플 크기 계산기

A/B 테스트를 수행하기 전에 적절한 샘플 크기(방문자 수)를 결정하여 결과를 평가하기 전에 활동을 실행해야 하는 시간을 설정하는 것이 중요합니다. 통계적 유의성이 달성될 때까지 단순히 활동을 모니터링하면 신뢰 구간이 크게 과소평가되어 테스트를 신뢰할 수 없게 된다. 이 결과의 이면에 있는 직관은 통계적으로 유의한 결과가 탐지된 경우에는 시험을 중단하고 승자를 선언한다는 것이다. 다만, 통계적으로 유의하지 않은 결과는 시험을 계속 진행할 수 있도록 하고 있다. 이러한 절차는 긍정 오류(false positive) 비율을 증가시키는 긍정적인 결과를 매우 편애하는 것이므로, 테스트의 유효한 유의 수준이 왜곡됩니다.

이 절차를 수행하면 많은 긍정 오류(false positive)가 발생할 수 있으며, 결과적으로 예측된 상승도를 제공하지 않는 오퍼가 구현됩니다. 리프트가 불만족스러운 결과이지만, 시간이 지나면서 리프트를 정확하게 예측할 수 없다는 것은 실제 테스트에서 조직의 신뢰를 손상시킨다는 것입니다.

이 글에서는 표본 크기를 결정할 때 균형을 잡아야 하는 요인에 대해 논의하고, 적절한 표본 크기를 추정하기 위한 계산기를 소개한다. A/B 테스트가 시작되기 전에 샘플 크기 계산기 (위에 제공된 링크)를 사용하여 샘플 크기를 계산하면 통계 표준을 준수하는 고품질 A/B 테스트를 항상 실행할 수 있습니다.

A/B 테스트를 정의하는 5개의 사용자 정의 매개 변수가 있습니다. 이 매개 변수는 상호 연결되어 있으므로 네 개 매개 변수를 설정하면 다섯 번째 매개 변수를 계산할 수 있습니다.

  • 통계적 유의도
  • 통계적 검증력
  • 확실히 감지 가능한 최소 상승도
  • 베이스라인 전환율
  • 방문자 수
중요

정확한 결과를 얻으려면 매개변수 번호를 변경하기 전에 페이지를 다시 로드해야 합니다. 매개변수 번호를 변경할 때마다 이 프로세스를 반복합니다.

A/B 테스트의 경우, 통계적 유의도, 통계적 검증력, 확실히 감지 가능한 최소 상승도 및 베이스라인 전환율은 분석가에 의해 설정되며 그런 다음 필요한 방문자 수가 이러한 수치들로부터 계산됩니다. 이 문서에서는 이러한 요소에 대해 설명하고 특정 테스트에 대한 이러한 지표를 결정하는 방법에 대한 지침을 제공합니다.

샘플 크기 이미지

아래 그림은 A/B 테스트의 네 가지 가능한 결과를 보여줍니다.

결과 이미지

긍정 오류(false positive) 또는 부정 오류(false negative)가 발생하지 않는 것이 좋지만, 그러나, 0의 긍정 오류(false positive)를 얻는 것은 통계 테스트로 보장될 수 없다. 관찰된 트렌드가 기본 전환율을 대표하지 않을 가능성은 항상 있습니다. 예를 들어, 동전을 던져 앞면이나 뒷면이 더 가능성이 있는지 알아보기 위한 테스트에서, 심지어 공정한 동전을 가지고, 당신은 단지 우연에 의해 10개의 앞면이 10번 던질 수 있습니다. 통계적 유의도 및 검증력은 긍정 오류(false positive)와 부정 오류(false negative) 비율을 결정하는 데 도움이 되며, 지정된 테스트에 대해 이러한 비율을 합리적인 수준으로 유지할 수 있도록 해줍니다.

통계적 유의도

테스트의 유의 수준은 실제로 실제 차이가 없을 때 테스트가 두 개의 서로 다른 오퍼 간에 전환율에 상당한 차이를 보고했을 가능성을 결정합니다. 이러한 상황을 긍정 오류(false positive) 또는 유형 I 오류라고 합니다. 유의 수준은 사용자가 지정한 임계값이며 긍정 오류(false positive)에 대한 허용치와 테스트에 포함되어야 하는 방문자 수 간의 절충입니다.

A/B 테스트를 시작할 때에는 두 오퍼의 전환율이 모두 동일하다고 가정합니다. 그런 다음 관찰된 결과의 확률을 이 가정을 기반으로 계산합니다. 이 확률(p 값)이 사전 정의된 임계값(유의 수준)보다 작으면 Target 결론은 두 오퍼의 전환율이 같다는 초기 가정이 올바르지 않다는 것입니다. 따라서 A와 B의 전환율은 주어진 유의수준에서 통계적으로 차이가 있다.

A/B 테스트에서 일반적으로 사용되는 유의 수준은 5%이며 이는 95% 신뢰 수준에 해당합니다(신뢰 수준 = 100% - 유의 수준). 신뢰 수준 95%는 테스트를 수행할 때마다, 오퍼 간 차이가 없더라도 통계적으로 유의미한 상승도를 감지할 확률이 5% 있음을 의미합니다.

신뢰 수준에 대한 일반적인 해석은 아래 표에 요약되어 있습니다.

신뢰도 수준 해석
< 90% 전환율 간에 차이가 있다는 증거가 없음
90 ~ 95% 전환율 간에 차이가 있다는 증거가 약함
95 ~ 99% 전환율 간에 차이가 있다는 증거가 보통임
99 ~ 99.9% 전환율 간에 차이가 있다는 증거가 강함
+99.9% 전환율 간에 차이가 있다는 증거가 매우 강함

항상 95% 이상의 신뢰 수준을 사용하는 것이 좋습니다.

가능한 가장 높은 신뢰 수준을 사용하여 검사에서 긍정 오류(false positive)가 거의 발생하지 않도록 하는 것이 바람직하다. 그러나 높은 신뢰 수준을 사용할수록 더 많은 수의 방문자가 필요하며 그럴 경우 테스트를 수행하는 데 필요한 시간이 늘어납니다. 또한 신뢰 수준이 증가하면 통계적 검증력은 감소합니다.

통계적 검증력

A/B 테스트의 통계적 검증력은 특정 규모의 전환율에서 실제 차이를 감지하는 확률입니다. 전환 이벤트의 무작위(확률적) 특성 때문에, 두 오퍼 간에 전환율에 실제 차이가 있더라도 통계적으로 중요한 차이가 우연히 관찰되지 않을 수 있습니다. 이러한 시나리오를 false negative 또는 Type II error라고 합니다.

통계적 유의도와 대조적으로 통계적 검증력의 결정은 A/B 테스트를 수행하지 않아도 되므로 통계적 검증력은 종종 무시됩니다. 그러나 통계적 검정력을 무시하면 샘플 크기가 너무 작기 때문에 서로 다른 오퍼의 전환율 간의 실제 차이가 테스트에 감지되지 않을 가능성이 큽니다. 이러한 상황은 거짓 양성 반응이 검사를 지배하는 결과를 낳습니다.

따라서 테스트에서 실질적인 전환율 차이를 식별할 가능성이 크고, 부정 오류(false negative)가 많이 나오지 않도록 높은 통계적 검증력을 확보하는 것이 바람직합니다. 그러나 주어진 상승도를 감지하는 통계적 능력을 높이기 위해 더 많은 방문자가 필요하며, 이는 테스트를 수행하는 데 필요한 시간을 증가시킵니다.

통계적 검증력에 일반적으로 사용되는 값은 80%이며, 이 값은 테스트에서 확실히 감지 가능한 최소 상승도와 같은 차이를 감지할 확률이 80%임을 의미합니다. 이 테스트에서는 작은 상승도를 감지할 확률은 낮고, 큰 상승도를 감지할 확률은 높습니다.

확실히 감지 가능한 최소 상승도

작은 상승도라도 구현할 가치는 있으므로 대부분의 조직은 전환율에서 가장 작은 가능한 차이를 측정하려고 합니다. 그러나 A/B 테스트가 작은 상승도를 감지할 가능성이 높도록 하려면 테스트에 포함되어야 하는 방문자의 수가 엄청나게 커집니다. 그 이유는 전환율 차이가 작을 경우 두 전환율 모두를 높은 정확도로 추정해야 차이를 파악할 수 있기 때문에 많은 방문자가 필요하다. 따라서 확실히 감지 가능한 최소 상승도는 작은 상승도를 감지하는 것과 오랜 시간 동안 테스트를 실행하는 것 사이의 균형점을 고려하는 비즈니스 요구 사항으로 결정해야 합니다.

예를 들어, 두 오퍼(A 및 B)의 실제 전환율이 각각 10%와 15%라고 가정할 때, 이 오퍼들이 각각 100명의 방문자에게 표시된다면 전환의 확률론적 특성으로 인해 오퍼 A의 경우 4% ~ 16% 범위, 오퍼 B의 경우 8% ~ 22% 범위의 전환율을 관찰할 확률은 95% 있습니다. 이 범위들은 통계에서 신뢰 구간이라고 하며, 예상 전환율의 정확성에 대한 신뢰도를 나타냅니다. 샘플 크기가 클수록(더 많은 방문자) 전환율의 추정값이 정확하다는 것을 더 확신할 수 있습니다.

아래 그림은 이러한 확률 분포를 보여줍니다.

probability_distributions 이미지

두 범위가 크게 겹치므로 이 테스트는 전환율이 다른지 여부를 판결할 수 없습니다. 따라서 방문자가 100명인 이 테스트는 두 오퍼를 구별할 수 없습니다. 그러나 다음과 같은 경우에는 Target 오퍼를 각각 5,000명의 방문자에게 노출하며, 관찰된 전환율이 각각 9%~11% 및 14%~16% 범위에서 떨어질 확률은 95%입니다.

probability_distributions2 이미지

이 경우 테스트가 잘못된 결론을 내릴 가능성이 낮으므로 방문자 5,000명을 대상으로 한 테스트에서는 두 오퍼를 구별할 수 있습니다. 5,000명의 방문자가 있는 테스트의 신뢰 구간은 +/-1%입니다. 이는 검사가 약 1%의 차이를 검출할 수 있음을 의미한다. 따라서 오퍼의 실제 전환율이 10%와 15%가 아니라 10%와 10.5%처럼 1% 미만의 차이가 나는 경우에는 훨씬 더 많은 방문자가 필요합니다.

베이스라인 전환율

베이스라인 전환율은 통제 오퍼(오퍼 A)의 전환율입니다. 경험을 기반으로 한 오퍼의 전환 수준에 대한 감이 좋은 경우가 많습니다. 새 유형의 오퍼 또는 크리에이티브인 이유로 파악하기 어려운 경우에는, 샘플 크기 계산에 사용할 수 있는 대략적인 베이스라인 전환율 추정치를 얻을 수 있도록 테스트를 하루 동안 실행할 수 있습니다.

방문자 수

장시간 동안의 테스트 실행 기회비용과 긍정 오류(false positive) 및 부정 오류(false negative)의 위험 사이에 균형을 이루는 것은 어려울 수 있습니다. 분명, 틀린 결정을 내려서도 안 되지만 너무 엄격하거나 융통성 없는 테스트 표준으로 인해 테스트가 무력해지는 것도 바람직하지 않습니다.

따라서 일반 지침으로서 95% 신뢰 수준과 80% 통계적 검증력이 권장됩니다.

샘플 크기 계산기(위에 제공된 링크)는 통계적 유의도(권장: 95%) 및 통계적 검증력(권장: 80%)으로 결정하도록 요구합니다. 모든 오퍼에 대한 베이스라인 전환율과 일별 트래픽을 입력하면 스프레드시트에서는 테스트의 지정된 검증력과 동일한 확률로 1%, 2%, 5%, 10%, 15%, 20%의 상승도를 감지하는 데 필요한 방문자 수를 출력합니다. 스프레드시트는 또한 사용자가 사용자 정의 최소값 신뢰성 있게 검출 가능한 상승도를 입력할 수 있게 한다. 더욱이 스프레드시트에서는 사용자가 입력한 트래픽 수준을 기반으로 테스트에 필요한 주 수를 출력합니다. 결과에 영향을 주는 요일 효과를 방지하기 위해 필요한 주 수를 가장 가까운 전체 주로 반올림합니다.

테스트에서 확실히 식별할 수 있는 최소 상승도와 필요한 방문자 수 간에는 균형점이 있습니다. 베이스라인(통제) 전환율 5%에 유효한 아래 그림에서는 방문자 수를 늘리기 위한 급격히 감소하는 수익을 보여줍니다. 확실히 감지할 수 있는 최소 상승도는 테스트에 처음 몇 명의 방문자를 추가할 때에는 엄청나게 개선되지만, 테스트를 개선하기 위해서는 점점 더 많은 방문자를 필요로 합니다. 이 그림은 테스트를 실행하는 데 필요한 시간(필요한 방문자 및 사이트 트래픽에 의해 결정된 대로)과 테스트에서 확실히 감지할 수 있는 최소 상승도 간의 적절한 균형점을 찾는 데 도움이 됩니다.

samplesizecontrol 이미지

이 예에서는 5%의 상승도를 감지할 수 있다고 결정할 수 있습니다(대안 오퍼의 전환율 (100%+5%에 해당)*5% = 5.25%) 100개 테스트 중 80개가 적절하므로 각 오퍼에 대해 10만 명의 방문자 샘플 크기가 필요합니다. 사이트에 하루에 20,000명의 방문자가 있고 두 개의 오퍼를 테스트하는 경우 테스트를 2에 대해 실행할 수 있어야 합니다*100,000/20,000 = 대체 오퍼가 통제 오퍼보다 통계적으로 유의미하게 우수한지 여부를 결정할 수 있기 전 10일.

이때도 필요한 시간은 요일 효과가 방지하도록 항상 가장 가까운 정수 주 수로 올림하는 것이 좋습니다. 따라서 이 예에서는 결과를 평가하기 전 2주 동안 테스트가 실행됩니다.

방문당 수입(RPV) 지표

방문당 매출(RPV)을 지표로 사용할 때 RPV는 주문당 매출액과 전환율(RPV = 매출 / #visitors = (주문당 매출액)의 곱이므로 추가적인 분산 소스가 추가됩니다 * #orders) / 방문자 수 = 주문당 매출 * (#visitors * CTR) / #visitors = 주문당 매출 * CTR), 각 변수 간의 차이 전환율의 분산은 수학적 모델을 사용하여 직접 추정할 수 있지만 주문당 매출액의 분산은 활동과 관련이 있습니다. 따라서 과거 활동에서 얻은 이 분산에 대한 지식을 사용하거나 며칠 동안 A/B 테스트를 실행하여 매출의 분산을 추정하십시오. 분산은 CSV 다운로드 파일에 있는 매출액 합계, 매출액 합계 제곱 및 방문자 수 값에서 계산됩니다. 이 설정이 완료되면 스프레드시트를 사용하여 테스트를 완료하는 데 필요한 시간을 계산합니다.

샘플 크기 계산기(위에 제공된 링크)는 RPV 지표를 구성하는 데 도움이 될 수 있습니다. 계산기를 열면 레이블이 지정된 탭이 표시됩니다 RPV 지표. RPV 버전의 계산기를 사용할 때에는 다음 정보가 필요합니다.

  • 통제 오퍼에 대한 방문자 수

  • 통제 오퍼에 대한 총 수익

    예외적인 순서 필터가 선택되어 있는지 확인합니다.

  • 통제 오퍼에 대한 수익 제곱의 합계

    예외적인 순서 필터가 선택되어 있는지 확인하십시오.

일반적으로 RPV를 지표로 사용하려면 측정된 동일한 상승도에 대해 동일한 통계적 신뢰 수준을 달성하는 데 20~30% 더 오래 걸립니다. 이는 RPV에 전환당 다른 주문 크기의 추가된 분산이 있기 때문입니다. 최종 비즈니스 결정의 기준으로 삼을 지표로 직접 전환율과 RPV 중에서 선택할 때 고려해야 합니다.

여러 오퍼를 비교하기 위한 보정

두 오퍼를 비교할 때마다 긍정 오류(false positive)를 얻을 확률(전환율에 차이가 없는 경우에도 통계적으로 유의미한 차이를 관찰하여)은 유의 수준과 동일합니다. 예를 들어, 5개의 오퍼 A/B/C/D/E가 있고 A가 통제 오퍼라면, 개의 비교가 수행되고(통제와 B, 통제와 C, 통제와 D, 통제와 E), 신뢰 수준이 95%일 때에도 긍정 오류(false positive)의 확률은 18.5%입니다. Pr(긍정 오류가 하나 이상) = 1 - Pr(긍정 오류가 없음) = 1 - 0.954 = 18.5%이기 때문입니다. 긍정 오류(false positive)는 대안과 통제 간에 사실상 차이가 없을 때 통제가 대안보다 낫다고 보고되거나 대안이 통제보다 낫다고 보고되는 것 중 하나로 정의되는 컨텍스트에서 발생합니다.

결론

를 사용하여 자동 할당 활동, Target 둘 이상의 경험에서 승자를 식별하고, 테스트가 계속 실행되고 학습되는 동안 변환을 늘리기 위해 더 많은 트래픽을 승자에게 자동으로 재할당합니다. 자동 지정을 통해 추측 작업을 제거하는 동시에 변환 목표를 쉽게 달성할 수 있습니다.

이 문서에 소개된 샘플 크기 계산기 (위에 제공된 링크)를 사용하고 테스트가 제안 된 시간 동안 실행될 수 있도록 허용하면 특정 테스트에 적합한 거짓 양성 및 거짓 음수 비율을 준수하는 고품질 A/B 테스트를 항상 수행하고 있는지 확인할 수 있습니다. 이렇게 하면 테스트가 일관되며 찾고 있는 상승도를 확실히 감지할 수 있습니다.

이 페이지에서는