통계적 유의성은 테스트 결과에 영향을 줍니다

테스트의 유의 수준은 실제로 실제 차이가 없을 때 테스트가 두 개의 서로 다른 오퍼 간에 전환율에 상당한 차이를 보고했을 가능성을 결정합니다. 이를 긍정 오류(false positive) 또는 유형 I 오류라고 합니다. 유의 수준은 사용자가 지정한 임계값이며 적절한 유의 수준을 선택함에 있어 테스트에 포함되어야 하는 방문자 수와 긍정 오류 허용 한도 간에 차이가 있습니다.

A/A 및 A/B 테스트에서 일반적으로 사용되는 유의 수준은 5%이며, 이는 95%의 신뢰 수준(신뢰 수준 = 100% - 유의 수준)에 해당합니다. 신뢰 수준 95%는 테스트를 수행할 때마다 경험 간에 차이가 없더라도 통계적으로 유의미한 상승도를 감지할 가능성이 5%임을 의미합니다.

A/A 테스트로 95% 신뢰 수준을 달성하려고 한다고 가정해 봅시다. 95% 신뢰 수준에서 20개의 A/A 테스트 중 1개는 전환에서 통계적으로 유의한 상승도를 보여줄 수 있습니다. 90% 신뢰 수준에서, 10개 테스트 중 1개가 동일한 경험을 테스트할 때 전환에서 상승도를 보여줄 수 있습니다.

우수 사례

조직에서 A/A 테스트가 필요하다고 결정하는 경우 동일한 경험이 일시적으로 제어와 차이를 보일 수 있습니다. 이는 테스트 실행이 허용된 시간에 따라 정상일 수 있습니다. 이 차이는 더 많은 시간과 방문자를 고려할 때 축소되어야 합니다.

가장 좋은 방법은 일반적인 A/B 테스트 방법을 사용하는 것입니다. Adobe Target 크기 계산기를 사용하여 최소 관련 효과 크기, 원하는 파워 및 중요도를 기반으로 미리 샘플 크기를 결정하십시오.

그런 다음 결론을 내리기 전에 적절한 시간과 방문자를 허용하고 테스트의 중요도 수준에 따라 한 경험이 상승도에 차이를 보이고 심지어 우승자로 선언될 가능성이 있다는 것을 기억하십시오.

recommendation-more-help