Comprendere i calcoli statistici nel rapporto sulla sperimentazione experiment-report-calculations
In questa pagina sono documentati i calcoli statistici dettagliati utilizzati nel rapporto Sperimentazione per le campagne in Adobe Journey Optimizer.
Questa pagina è destinata agli utenti tecnici.
Tasso di conversione
Il tasso di conversione o media, μ per ogni trattamento ν in un esperimento è definito come un rapporto tra la somma della metrica e il numero di profili assegnati a tale metrica, N:
In questo caso, Yi è il valore della metrica di obiettivo per ogni profilo i, che è stato assegnato a una determinata variante **. Quando la metrica obiettiva è una metrica “univoca”, ovvero è un conteggio del numero di profili che eseguono una particolare azione, viene visualizzata come tasso di conversione e formattata come percentuale. Quando la metrica è una metrica di “conteggio” o “valore totale” (ad esempio apertura di e-mail, ricavi rispettivamente), la stima media per la metrica viene visualizzata come “Conteggio per profilo” o “Valore per profilo”.
Se necessario, la deviazione standard del campione è usata con l’espressione:
Incremento lift
L’incremento tra una variante ** e la variante di controllo 0 è il “delta” relativo nei tassi di conversione, definito come il calcolo seguente, in cui i singoli tassi di conversione sono definiti come sopra. Viene visualizzata come percentuale.
Intervalli di attendibilità validi in qualsiasi momento per singoli trattamenti
Nel pannello Sperimentazione di Percorso vengono visualizzati intervalli di affidabilità (sequenze di affidabilità) “sempre validi” per i singoli trattamenti di un esperimento.
La sequenza di affidabilità per una singola variante ν è fondamentale per la metodologia statistica utilizzata da Adobe. Puoi trovarne la definizione in questa pagina (riprodotta da [Waudby-Smith et al.]).
Se si è interessati a stimare un parametro di destinazione ψ, ad esempio il tasso di conversione di una variante in un esperimento, la dicotomia tra una sequenza di intervalli di affidabilità (CI) a tempo fisso e una sequenza di affidabilità (CS) uniforme nel tempo può essere riassunta come segue:
Per un intervallo di affidabilità regolare, la garanzia probabilistica che il parametro di destinazione si trovi all’interno dell’intervallo di valorin è valida solo per un singolo valore fisso di n (dove n è il numero di campioni). Al contrario, per una sequenza di affidabilità, siamo certi che in ogni momento/ tutti i valori della dimensione del campione t, il valore “true” del parametro di interesse si trova entro i limiti.
Questo ha alcune implicazioni profonde che sono molto importanti per i test online:
- Facoltativamente, il CS può essere aggiornato ogni volta che diventano disponibili nuovi dati.
- Gli esperimenti possono essere monitorati in modo continuo, interrotti in modo adattivo o continuati.
- L’errore di tipo I viene controllato in tutti i momenti di arresto, compresi quelli dipendenti dai dati.
Adobe utilizza le sequenze di affidabilità asintotiche, che per una singola variante con stima media μ hanno il formato:
Dove:
Nè il numero di unità per quella variante.σè una stima campione della deviazione standard (definita sopra).αè il livello desiderato di errore di tipo I (o la probabilità di mancata copertura). Questo valore è sempre impostato su 0,05.- L’elemento che caratterizza il CS è la costante che consente di regolare le dimensioni del campione in base alle quali il CS è più stretto. Adobe ha scelto un valore universale di2 = 10-2.8, appropriato per i tipi di tassi di conversione visualizzati negli esperimenti online.
Affidabilità confidence
L’affidabilità utilizzata da Adobe è un’affidabilità “valida in qualsiasi momento”, ottenuta invertendo la sequenza di affidabilità per l’effetto medio del trattamento.
Per essere precisi, in un test di due campioni t per la differenza di medie tra due varianti, esiste una mappatura 1:1 tra il valore di p per questo test e l’intervallo di affidabilità per la differenza di medie. Per analogia, è possibile ottenere un valore di p valido in qualsiasi momento invertendo la sequenza di affidabilità (valida in qualsiasi momento) per il stimatore dell’effetto medio del trattamento:
E è un’aspettativa. Lo stimatore utilizzato è uno stimatore con ponderazione della propensione inversa (IPW). Considerare N = N0 +N1 unità, le assegnazioni di variante per ogni unità i etichettata da Ai=0,1 se l’unità è assegnata alla variante ν=0,1. Se gli utenti vengono assegnati con una probabilità fissa (propensione)0, (1-0) e la metrica di risultato è Yi, allora lo stimatore IPW per l’effetto del trattamento medio è:
Notando che f è la funzione di influenza, Waudby-Smith et al. ha mostrato che la sequenza di affidabilità per questo stimatore è:
Sostituendo la probabilità di assegnazione con le stime empiriche:0 = N0/N, il termine di varianza può essere espresso in termini di stime medie di campione individuali μ0,1 e stime di deviazione standard, con:
Successivamente, ricorda che per un test di ipotesi regolare con statistica del test z = (μA-μ0/μp) esiste una corrispondenza tra i valori p e gli intervalli di affidabilità:
dove Φ è la distribuzione cumulativa della normale standard. Per ogni periodo di tempo valido p valori, data la sequenza di affidabilità per l’effetto medio del trattamento definito sopra, è possibile invertire questa relazione:
Infine, attendibilità valida in qualsiasi momento è:
Dichiarare conclusivo un esperimento
Per un esperimento con due bracci, nel pannello Sperimentazione di Journey Optimizer viene visualizzato un messaggio che indica che un esperimento è conclusivo quando l’affidabilità valida supera il 95% (ovvero, il valore valido p è inferiore al 5%).
Se sono presenti più di due varianti, la correzione Bonferroni viene applicata per controllare il tasso di errore per famiglia. Per un esperimento con K trattamenti e un singolo trattamento di base (di controllo), sono disponibili K-1 test di ipotesi indipendenti. La correzione Bonferroni significa che rifiutiamo l’ipotesi nulla che il controllo e una determinata variante abbiano mezzi uguali, se il valore valido p (definito sopra) è al di sotto di una soglia di α/(K-1).
Braccio dalle prestazioni migliori
Quando un esperimento è dichiarato conclusivo, viene visualizzato il braccio con le prestazioni migliori. Questo è il braccio con le migliori prestazioni (media più alta o tasso di conversione), tra il Set che include il controllo, e tutti i bracci con un valore di p che è al di sotto della soglia Bonferroni.