Comprendere i calcoli statistici nel rapporto sulla sperimentazione experiment-report-calculations
In questa pagina sono documentati i calcoli statistici dettagliati utilizzati nel rapporto Sperimentazione per le campagne in Adobe Journey Optimizer.
Questa pagina è destinata agli utenti tecnici.
Tasso di conversione
Il tasso di conversione o media, μ per ogni trattamento ν in un esperimento è definito come un rapporto tra la somma della metrica e il numero di profili assegnati a tale metrica, N:
          
          
In questo caso, Yi è il valore della metrica di obiettivo per ogni profilo i, che è stato assegnato a una determinata variante **. Quando la metrica obiettiva è una metrica "univoca", ovvero è un conteggio del numero di profili che eseguono una particolare azione, viene visualizzata come tasso di conversione e formattata come percentuale. Quando la metrica è una metrica di "conteggio" o "valore totale" (ad esempio apertura di e-mail, ricavi rispettivamente), la stima media per la metrica viene visualizzata come "Conteggio per profilo" o "Valore per profilo".
Se necessario, la deviazione standard del campione è usata con l'espressione:
          
          
Incremento lift
L'incremento tra una variante ** e la variante di controllo 0 è il "delta" relativo nei tassi di conversione, definito come il calcolo seguente, in cui i singoli tassi di conversione sono definiti come sopra. Viene visualizzata come percentuale.
          
          
Intervalli di confidenza validi per i singoli trattamenti
Nel pannello Sperimentazione di Percorso vengono visualizzati intervalli di affidabilità (sequenze di affidabilità) "sempre validi" per i singoli trattamenti di un esperimento.
La sequenza di affidabilità per una singola variante ν è fondamentale per la metodologia statistica utilizzata da Adobe. Puoi trovarne la definizione in questa pagina (riprodotta da [Waudby-Smith et al.]).
Se si è interessati a stimare un parametro di destinazione ψ, ad esempio il tasso di conversione di una variante in un esperimento, la dicotomia tra una sequenza di intervalli di affidabilità (CI) a tempo fisso e una sequenza di affidabilità (CS) uniforme nel tempo può essere riassunta come segue:
          
          
Per un intervallo di affidabilità regolare, la garanzia probabilistica che il parametro di destinazione si trovi all'interno dell'intervallo di valorin è valida solo per un singolo valore fisso di n (dove n è il numero di campioni). Al contrario, per una sequenza di affidabilità, siamo certi che in ogni momento/ tutti i valori della dimensione del campione t, il valore "true" del parametro di interesse si trova entro i limiti.
Questo ha alcune implicazioni profonde che sono molto importanti per i test online:
- Facoltativamente, il CS può essere aggiornato ogni volta che diventano disponibili nuovi dati.
 - Gli esperimenti possono essere monitorati in modo continuo, interrotti in modo adattivo o continuati.
 - L’errore di tipo I viene controllato in tutti i momenti di arresto, compresi quelli dipendenti dai dati.
 
Adobe utilizza le sequenze di affidabilità asintotiche, che per una singola variante con stima media μ hanno il formato:
          
          
Dove:
Nè il numero di unità per quella variante.σè una stima campione della deviazione standard (definita sopra).αè il livello desiderato di errore di tipo I (o la probabilità di mancata copertura). Questo valore è sempre impostato su 0,05.- L'elemento che caratterizza il CS è la costante che consente di regolare le dimensioni del campione in base alle quali il CS è più stretto. Adobe ha scelto un valore universale di2 = 10-2.8, appropriato per i tipi di tassi di conversione visualizzati negli esperimenti online.
 
Affidabilità confidence
L’affidabilità utilizzata da Adobe è un’affidabilità "valida in qualsiasi momento", ottenuta invertendo la sequenza di affidabilità per l’effetto medio del trattamento.
Per essere precisi, in un test di due campioni t per la differenza di medie tra due varianti, esiste una mappatura 1:1 tra il valore di p per questo test e l'intervallo di affidabilità per la differenza di medie. Per analogia, è possibile ottenere un valore di p valido in qualsiasi momento invertendo la sequenza di affidabilità (valida in qualsiasi momento) per il stimatore dell'effetto medio del trattamento:
          
          
E è un'aspettativa. Lo stimatore utilizzato è uno stimatore con ponderazione della propensione inversa (IPW). Considerare N = N0 +N1 unità, le assegnazioni di variante per ogni unità i etichettata da Ai=0,1 se l'unità è assegnata alla variante ν=0,1. Se gli utenti vengono assegnati con una probabilità fissa (propensione)0, (1-0) e la metrica di risultato è Yi, allora lo stimatore IPW per l'effetto del trattamento medio è:
          
          
Notando che f è la funzione di influenza, Waudby-Smith et al. ha mostrato che la sequenza di affidabilità per questo stimatore è:
          
          
Sostituendo la probabilità di assegnazione con le stime empiriche:0 = N0/N, il termine di varianza può essere espresso in termini di stime medie di campione individuali μ0,1 e stime di deviazione standard, con:
          
          
Successivamente, ricorda che per un test di ipotesi regolare con statistica del test z = (μA-μ0/μp) esiste una corrispondenza tra i valori p e gli intervalli di affidabilità:
          
          
dove Φ è la distribuzione cumulativa della normale standard. Per ogni periodo di tempo valido p valori, data la sequenza di affidabilità per l’effetto medio del trattamento definito sopra, è possibile invertire questa relazione:
          
          
Infine, attendibilità valida in qualsiasi momento è:
          
          
Dichiarazione di conclusione di un esperimento
Per un esperimento con due bracci, nel pannello Sperimentazione di Journey Optimizer viene visualizzato un messaggio che indica che un esperimento è conclusivo quando l'affidabilità valida supera il 95% (ovvero, il valore valido p è inferiore al 5%).
Se sono presenti più di due varianti, la correzione Bonferroni viene applicata per controllare il tasso di errore per famiglia. Per un esperimento con K trattamenti e un singolo trattamento di base (di controllo), sono disponibili K-1 test di ipotesi indipendenti. La correzione Bonferroni significa che rifiutiamo l'ipotesi nulla che il controllo e una determinata variante abbiano mezzi uguali, se il valore valido p (definito sopra) è al di sotto di una soglia di α/(K-1).
Braccio dalle prestazioni migliori
Quando un esperimento è dichiarato conclusivo, viene visualizzato il braccio con le prestazioni migliori. Questo è il braccio con le migliori prestazioni (media più alta o tasso di conversione), tra il Set che include il controllo, e tutti i bracci con un valore di p che è al di sotto della soglia Bonferroni.