Intervalos de confiança válidos a qualquer momento para tratamentos individuais
O painel Experimentação do Jornada exibe intervalos de confiança "válidos a qualquer momento" (sequências de confiança) para tratamentos individuais em um experimento.
A sequência de confiança para uma variante individual ν
é central para a metodologia estatística usada pelo Adobe. Você pode encontrar sua definição em esta página (reproduzida de [Waudby-Smith et al.]).
Se você estiver interessado em estimar um parâmetro de destino ψ
, como o índice de conversão de uma variante em um Experimento, a dicotomia entre uma sequência de Intervalos de confiança (CIs) de "tempo fixo" e uma Sequência de confiança (CS) uniforme no tempo poderá ser resumida da seguinte maneira:
Para um Intervalo de Confiança regular, a garantia probabilística de que o parâmetro do público alvo está dentro do intervalo de valores⌘n é válida somente em um único valor fixo de n
(onde n
é o número de amostras). Por outro lado, para uma Sequência de confiança, garantimos que, em todos os momentos/ todos os valores do tamanho da amostra t
, o valor "true" do parâmetro de interesse esteja dentro dos limites.
Isso tem algumas implicações profundas que são muito importantes para o teste online:
- O CS pode ser atualizado opcionalmente sempre que novos dados estiverem disponíveis.
- Os experimentos podem ser monitorados continuamente, interrompidos adaptativamente ou continuados.
- O erro de tipo I é controlado em todos os horários de interrupção, incluindo horários dependentes de dados.
O Adobe usa Sequências de Confiança Assintótica, que para uma variante individual com estimativa média μ
tem o formato:
Em que:
N
é o número de unidades dessa variante.σ
é uma amostra de estimativa do desvio padrão (definido acima).α
é o nível desejado de erro do tipo I (ou probabilidade de cobertura incorreta). Isso sempre é definido como 0,05.- ρ2 é uma constante que ajusta o tamanho da amostra na qual o CS é mais rigoroso. A Adobe escolheu um valor universal de ρ2 = 10-2.8, que é apropriado para os tipos de taxas de conversão vistos em experimentos online.
Confiança
A confiança usada pelo Adobe é uma confiança "válida a qualquer momento", que é obtida invertendo a sequência de confiança para o efeito de tratamento médio.
Para ser mais preciso, em um teste de duas amostras t para a diferença em médias entre duas variantes, há um mapeamento 1:1 entre o valor p para este teste e o intervalo de confiança para a diferença em médias. Por analogia, um valor de p válido a qualquer momento pode ser obtido invertendo a sequência de confiança (válida a qualquer momento) para o estimador de efeito médio de tratamento:
Aqui, E é uma expectativa. O estimador usado é um estimador de propensão inversa ponderada (IPW). Considere N = N0 +N1 unidades, as atribuições de variante para cada unidade i
rotuladas por Ai=0,1 se a unidade for atribuída à variante ν
=0,1. Se for atribuída aos usuários uma probabilidade fixa (propensão) π0, (1-π0), e sua métrica de resultado for Yi, o avaliador de IPW para o efeito médio de tratamento será:
Observando que f é a função de influência, Waudby-Smith et al. A mostrou que a Sequência de confiança para este estimador é:
Substituindo a probabilidade de atribuição pelas suas estimativas empíricas: π0 = N0/N, o termo de variância pode ser expresso em termos de estimativas individuais da média da amostra μ0,1 e estimativas do desvio-padrão, σ0,1 como:
Em seguida, lembre-se de que para um teste de hipótese regular com estatística de teste z = (μA-μ0/σp) há uma correspondência entre p
valores e intervalos de confiança:
onde Φ
é a distribuição cumulativa do normal padrão. Para valores de p
válidos a qualquer momento, dada a sequência de confiança para o efeito de tratamento médio definido acima, podemos inverter essa relação:
Finalmente, a confiança válida a qualquer momento é:
Declarar um experimento como conclusivo
Para um Experimento com dois braços, o painel Experimentação do Journey Optimizer exibe uma mensagem informando que um Experimento é conclusivo quando a confiança válida a qualquer momento excede 95% (ou seja, o valor de p
válido a qualquer momento está abaixo de 5%).
Quando mais de duas variantes estão presentes, a correção de Bonferonni é aplicada para controlar a taxa de erro da família. Para um experimento com K
tratamentos e um único tratamento de linha de base (controle), existem K-1
testes de hipótese independentes. A correção de Bonferonni significa que rejeitamos a hipótese nula de que o controle e uma determinada variante tenham meios iguais, se o valor p
válido a qualquer momento (definido acima) estiver abaixo de um limite de α/(K-1)
.
Braço com melhor desempenho
Quando um experimento é declarado conclusivo, o braço com melhor desempenho é exibido. Este é o braço com o melhor desempenho (maior média ou taxa de conversão), entre o Conjunto que inclui o controle, e todos os braços que têm um valor de p
abaixo do limite de Bonferonni.