Compreenda cálculos estatísticos experiment-calculations

Este artigo descreve os cálculos estatísticos usados quando você executa experimentos no Adobe Journey Optimizer.

Usos de experimentação métodos estatísticos avançados para calcular Sequências de confiança e Confiança, que permitem executar seus experimentos enquanto for necessário e monitorar continuamente os resultados.

Este artigo descreve como a Experimentação funciona e fornece uma introdução intuitiva ao Adobe verificação Sequências de confiança válidas a qualquer momento.

Para usuários especialistas, as referências e os detalhes técnicos são detalhados em esta página.

Teste estatístico e controle de erros statistical-testing

Quando você executa um experimento você está tentando determinar se há uma diferença entre duas populações e a probabilidade de que a diferença se deve ao acaso.

Geralmente, há duas hipóteses:

  • o Hipótese Nula que não tem efeito sobre o tratamento.
  • o Hipótese alternativa significa que há um efeito no tratamento.

Em significância estatística, o objetivo é tentar avaliar a força da evidência para rejeitar a hipótese nula. Um ponto importante a ser observado é que significância estatística é usada para julgar quão provável os tratamentos são diferentes, não quão provável eles são para ser bem sucedidos. É por esta razão que a significância estatística é utilizada em Elevação.

A experimentação eficaz requer que sejam considerados os diferentes tipos de erros que podem causar inferências incorretas.

A tabela acima ilustra os diferentes tipos de erros:

  • Falsos positivos (erros de tipo I): são uma rejeição incorreta da hipótese nula, quando, na verdade, é verdadeira. No contexto de experimentos online, isso significa que concluímos falsamente que a métrica de resultado é diferente entre cada tratamento, embora seja a mesma.

    Antes de executarmos o experimento, normalmente escolhemos um limite \alpha. Após a execução do experimento, a variável p-value é calculado e rejeitamos a variável null if p < \alpha.Escolha de um /alpha é baseado nas consequências de obter a resposta errada, por exemplo, em um ensaio clínico em que a vida de alguém pode ser afetada, você pode decidir ter um \alpha = 0.005. Um limite comumente usado em experimentação online é \alpha = 0.05, o que significa que, a longo prazo, esperamos que 5 em cada 100 experimentos sejam falsos positivos.

  • Falsos negativos (erros tipo II): significa que não rejeitamos a hipótese nula, embora ela seja falsa. Para experimentos, isso significa que não rejeitamos a hipótese nula, quando na verdade ela é diferente. Para controlar esse tipo de erro, geralmente precisamos ter usuários suficientes em nosso experimento para garantir uma determinada Potência, definida como 1 - \beta(isto é, um menos a probabilidade de um erro de tipo II).

A maioria das técnicas de inferência estatística exige que você corrija o tamanho da amostra antecipadamente, com base no tamanho do efeito que deseja determinar, bem como na tolerância a erros (\alpha e \beta) com antecedência. No entanto, a metodologia da Adobe Journey Optimizer foi projetada para permitir que você verifique continuamente seus resultados, para qualquer tamanho de amostra.

Metodologia Estatística Do Adobe: Sequências De Confiança Válidas A Qualquer Momento

A Sequência de confiança é um análogo sequencial de um Intervalo de confiança, por exemplo, se você repetir seus experimentos cem vezes e calcular uma estimativa da métrica média e sua sequência associada de 95% de confiança para cada novo usuário que entra no experimento. Uma sequência de confiança de 95% incluirá o valor real da métrica em 95 dos 100 experimentos executados. Um intervalo de confiança de 95% só pode ser calculado uma vez por experimento a fim de dar a mesma garantia de cobertura de 95%; não com cada novo usuário. As Sequências de confiança permitem, portanto, monitorar continuamente os experimentos sem aumentar as taxas de erro de falso positivo.

A diferença entre as sequências de confiança e os intervalos de confiança para um único experimento é mostrada na animação abaixo:

Sequências de confiança mude o foco de experimentos para estimativa em vez de teste de hipótese, ou seja, focalizando na estimativa precisa da diferença nas médias entre tratamentos, em vez de rejeitar ou não uma hipótese nula com base em um limite de significância estatística.

No entanto, de forma semelhante à relação entre p-valuesou Confiança, e Intervalos de confiança Além disso, existe também uma relação Sequências de confiança e em qualquer horário válido p-valuesou qualquer Confiança válida. Dada a familiaridade de quantidades como o Confidence, o Adobe fornece tanto o Sequências de confiança e em qualquer momento válida Confiança em seus relatórios.

Os fundamentos teóricos da Sequências de confiança vêm do estudo de sequências de variáveis aleatórias conhecidas como martingales. Alguns resultados principais foram incluídos abaixo para leitores especialistas, mas os argumentos dos profissionais são claros:

NOTE
Sequências de confiança podem ser interpretadas como análogos sequenciais seguros de intervalos de confiança. Com intervalos de confiança, só é possível interpretar o experimento depois de atingir o tamanho predeterminado da amostra. No entanto, com sequências de confiança, você pode observar e interpretar os dados em seus Experimentos a qualquer momento que desejar e interromper ou continuar com os experimentos com segurança. a confiança válida a qualquer momento correspondente, ou p-valueO, também é seguro para interpretar a qualquer momento.

É importante observar que, como as sequências de confiança são "válidas a qualquer momento", elas serão mais conservadoras do que uma metodologia de horizonte fixo usada no mesmo tamanho de amostra. Os limites da sequência de confiança geralmente são mais amplos do que um cálculo de intervalo de confiança, enquanto a confiança válida a qualquer momento será menor do que um cálculo de confiança de horizonte fixo. O benefício deste conservadorismo é que você pode interpretar com segurança seus resultados em todos os momentos.

Declarar um experimento como conclusivo

Toda vez que você visualiza o relatório de experimentação, o Adobe analisa os dados acumulados no experimento até o momento e declara um experimento como "Conclusivo" quando a confiança válida a qualquer momento ultrapassa um limite de 95% para pelo menos um dos tratamentos.

Neste ponto, o tratamento que está tendo o melhor desempenho (com base na taxa de conversão ou no valor da métrica normalizada do perfil) será destacado na parte superior da tela do relatório e indicado com uma estrela no relatório tabular. Somente tratamentos que tenham uma confiança maior que 95%, juntamente com a linha de base, são considerados nesta determinação.

Quando há mais de dois tratamentos, o link de correção de Bonferroni é usado para corrigir vários problemas de comparação e controla a taxa de erro na família. Nesse cenário também é possível que existam tratamentos múltiplos cuja confiança é maior que 95% e cujos intervalos de confiança se sobrepõem. Nesse caso, o Adobe Journey Optimizer declarará aquela com a taxa de conversão mais alta (ou valor de métrica normalizado por perfil) como o melhor desempenho.

recommendation-more-help
b22c9c5d-9208-48f4-b874-1cefb8df4d76