Per quanto tempo si deve eseguire un test A/B?

Last update: Sat Jul 20 2024 00:00:00 GMT+0000 (Coordinated Universal Time)

Argomenti:
Test A/B

Un'attività A/B Test completata in Adobe Target richiede un numero di visitatori (dimensione campione) sufficiente per migliorare il tasso di conversione. Come sai per quanto tempo eseguire un test A/B? Questo articolo contiene informazioni sulle attività di Auto-Allocate e sul calcolatore delle dimensioni del campione di Adobe Target per garantire che l'attività abbia un numero di visitatori sufficiente per raggiungere gli obiettivi.

Si è tentati di interrompere un’attività se nei primi giorni di attività una delle offerte ha prestazioni migliori o peggiori delle altre. Tuttavia, con un numero ridotto di osservazioni, c'è un'alta probabilità che un incremento positivo o negativo sia imputabile al caso, perché il tasso di conversione è calcolato dalla media di un numero basso di visitatori. Man mano che l’attività raccoglie più punti di dati, i tassi di conversione convergono verso i loro reali valori a lungo termine.

IMPORTANT

L’arresto anticipato di un’attività è una delle dieci insidie significative che potresti riscontrare durante l’esecuzione di un test A/B. Per ulteriori informazioni, consulta Dieci insidie frequenti per i test A/B e come evitarle.

Adobe Target fornisce gli strumenti necessari per garantire che l'attività abbia dimensioni di campione sufficienti per raggiungere gli obiettivi di conversione: Allocazione automatica.

Allocazione automatica auto-allocate

Un'attività Allocazione automatica è un tipo di test A/B che identifica un vincitore tra due o più esperienze. Un test Auto-Allocate ridistribuisce automaticamente più traffico per aumentare le conversioni, mentre il test continua a essere eseguito e ad apprendere.

I test A/B standard hanno un costo intrinseco. Devi investire del traffico per misurare le prestazioni di ogni esperienza e capire quale sia l’esperienza vincente attraverso l’analisi. La distribuzione del traffico rimane fissa anche dopo aver compreso che alcune esperienze hanno prestazioni migliori di altre. Inoltre, è complicato calcolare la dimensione necessaria del campione, e l’attività deve essere eseguita completamente prima di poter intervenire in base al vincitore. E c'è ancora una possibilità che il vincitore identificato non sia un vero vincitore.

La soluzione è Auto-Allocate. Auto-Allocate riduce il costo e il sovraccarico associati alla determinazione di un'esperienza vincente. Auto-Allocate monitora le prestazioni della metrica obiettivo di tutte le esperienze e invia in modo proporzionale un numero maggiore di nuovi partecipanti alle esperienze con prestazioni migliori. Per l’esplorazione delle altre esperienze viene riservata una quantità adeguata di traffico. Puoi vedere i vantaggi dell’attività sui tuoi risultati, anche mentre l’attività è ancora in esecuzione: l’ottimizzazione si verifica in parallelo con l’apprendimento.

Auto-Allocate sposta gradualmente i visitatori verso esperienze vincenti, invece di richiedere di attendere che un'attività finisca per determinare un vincitore. Puoi beneficiare di incrementi più rapidi perché potenziali esperienze vincenti vengono mostrate a partecipanti che sarebbero altrimenti stati destinati a esperienze di minor successo.

Quando si utilizza Auto-Allocate, Target mostra un badge nella parte superiore della pagina dell'attività che indica "Ancora nessun vincitore" finché l'attività non raggiunge il numero minimo di conversioni con sufficiente affidabilità. Target dichiara quindi l'esperienza vincente visualizzando un badge nella parte superiore della pagina dell'attività.

Per ulteriori informazioni, vedere Panoramica dell'allocazione automatica.

Adobe Target Calcolatore dimensioni campione section_6B8725BD704C4AFE939EF2A6B6E834E6

Se si sceglie di utilizzare un'attività manuale A/B Test anziché Auto-Allocate, il calcolatore delle dimensioni del campione Target consente di determinare le dimensioni del campione necessarie per il successo del test. Un test A/B manuale è un test a orizzonte fisso, quindi la calcolatrice è utile. L'utilizzo del calcolatore per un'attività Auto-Allocate è facoltativo perché Auto-Allocate dichiara un vincitore. La calcolatrice fornisce una stima approssimativa delle dimensioni del campione necessarie. Continua a leggere per ulteriori informazioni su come utilizzare il calcolatore.

Prima di configurare il test A/B, accedi al Adobe Target Calcolatore dimensioni campione.

Calcolatore delle dimensioni del campione di Adobe Target

È importante determinare una dimensione di campione adeguata (numero di visitatori) prima di eseguire qualsiasi test A/B per stabilire per quanto tempo l’attività deve essere eseguita prima di valutare i risultati. Il semplice monitoraggio dell’attività fino a raggiungere la significatività statistica causa una notevole sottostima dell’intervallo di affidabilità, rendendo il test inaffidabile. L’intuizione alla base di questo risultato è che, nel caso in cui venga rilevato un risultato statisticamente significativo, il test viene interrotto e viene dichiarato un vincitore. Tuttavia, se il risultato non è statisticamente significativo, il test può continuare. Questa procedura favorisce fortemente un esito positivo, aumentando il livello dei falsi positivi e quindi distorcendo il livello di significatività effettiva del test.

Questa procedura può causare molti falsi positivi, che portano all’implementazione di offerte che non forniscono alla fine l’incremento previsto. Lo scarso incremento di per sé è un risultato insoddisfacente, ma una conseguenza ancora più grave è che, nel tempo, l'incapacità di prevedere con precisione l'incremento erode la fiducia organizzativa nei test come pratica.

Questo articolo illustra i fattori che devono essere controbilanciati quando si determina una dimensione del campione e introduce un calcolatore per stimare una dimensione del campione adeguata. Calcolare la dimensione del campione utilizzando il Calcolatore dimensione campione (disponibile dal collegamento fornito in precedenza) prima di iniziare un test A/B consente di eseguire sempre test A/B di alta qualità conformi agli standard statistici.

Un test A/B si basa su cinque parametri definiti dall’utente. Questi parametri sono interconnessi in modo che, quando ne vengono definiti quattro, il quinto può essere ricavato:

Rilevanza statistica
Potenza statistica
Incremento rilevabile con affidabilità minima
Tasso di conversione linea di base
Numero di visitatori

IMPORTANT

Per ottenere risultati precisi, ricaricate la pagina prima di modificare qualsiasi numero di parametro. Ripetete questo processo ogni volta che modificate i numeri dei parametri.

Per un test A/B, la rilevanza statistica, la potenza statistica, l’incremento rilevabile con affidabilità minima e il tasso di conversione linea di base sono impostati dall’analista; il numero di visitatori richiesti viene quindi calcolato a partire da queste cifre. Questo articolo illustra questi elementi e fornisce linee guida per determinare queste metriche per un test specifico.

immagine di esempio

La figura seguente illustra i quattro possibili risultati di un test A/B:

immagine risultati

È auspicabile evitare falsi positivi o falsi negativi, Tuttavia, l’ottenimento di zero falsi positivi non può mai essere garantito da un test statistico. È sempre possibile che le tendenze osservate non siano rappresentative dei tassi di conversione sottostanti. Ad esempio, in un test per verificare se è più probabile che una moneta dia testa o croce, è possibile ottenere dieci teste su dieci lanci solo per caso. La significatività statistica e la potenza aiutano a quantificare il numero di falsi positivi e falsi negativi e consentono di mantenerli a livelli ragionevoli per un determinato test.

Rilevanza statistica section_8230FB9C6D1241D8B1786B72B379C3CD

Il livello di significatività di un test determina la probabilità che il test riporti una differenza significativa nei tassi di conversione tra due offerte diverse, quando in realtà non c’è alcuna differenza reale. Questa situazione è nota come falso positivo o errore di tipo I. Il livello di significatività è una soglia specificata dall’utente ed è un compromesso tra la tolleranza per i falsi positivi e il numero di visitatori che devono essere inclusi nel test.

In un test A/B, si presume inizialmente che entrambe le offerte abbiano lo stesso tasso di conversione. La probabilità del risultato osservato è quindi calcolata sulla base di questo presupposto. Se questa probabilità (il valore p) è inferiore a una soglia predefinita (il livello di significatività), Target conclude che l'ipotesi iniziale, che entrambe le offerte abbiano lo stesso tasso di conversione, non è corretta. E, quindi, i tassi di conversione di A e B sono statisticamente diversi a un dato livello di significatività.

Un livello di significatività comunemente utilizzato nei test A/B è pari al 5%, che corrisponde a un livello di affidabilità del 95% (livello di affidabilità = 100% - livello di significatività). Un livello di affidabilità del 95% significa che, a ogni esecuzione di un test, esiste una possibilità del 5% di rilevare un incremento statisticamente significativo, anche se non esiste alcuna differenza tra le offerte.

La tabella seguente riassume alcune interpretazioni tipiche del livello di affidabilità:

Livello di affidabilità

Interpretazione

< 90%

Nessuna evidenza che esista una differenza tra i tassi di conversione

90-95%

Evidenza debole che esista una differenza tra i tassi di conversione

95-99%

Evidenza moderata che esista una differenza tra i tassi di conversione

99-99,9%

Evidenza forte che esista una differenza tra i tassi di conversione

+99,9%

Evidenza molto forte che esista una differenza tra i tassi di conversione

Si consiglia di utilizzare sempre un livello di affidabilità del 95% o superiore.

È auspicabile utilizzare il livello di affidabilità più alto possibile, in modo che il test generi pochi falsi positivi. Tuttavia, un livello di affidabilità più elevato richiede un numero di visitatori più ampio, il che aumenta il tempo necessario per eseguire il test. Inoltre, un aumento del livello di affidabilità genera una riduzione della potenza statistica.

Potenza statistica section_1169C27F8E4643719D38FB9D6EBEB535

La potenza statistica di un test A/B è la probabilità di individuare una differenza effettiva nel tasso di conversione di una certa portata. A causa della natura casuale (stocastica) degli eventi di conversione, è possibile che una differenza statisticamente significativa non venga osservata, per semplice casualità, anche se esiste una differenza reale nel tasso di conversione tra le due offerte. Questo scenario viene definito falso negativo o errore di tipo II.

La potenza statistica viene spesso ignorata perché la sua determinazione, a differenza della rilevanza statistica, non è necessaria per eseguire un test A/B. Tuttavia, ignorando la potenza statistica, esiste una possibilità sostanziale che le differenze reali tra i tassi di conversione delle diverse offerte non vengano rilevate dal test, a causa di un campione di dimensioni troppo ridotte. Questa situazione fa sì che i test siano dominati da falsi positivi.

È auspicabile disporre di una potenza statistica elevata in modo che il test abbia un’alta probabilità di individuare una differenza reale nei tassi di conversione e generi un minor numero di falsi negativi. Tuttavia, per aumentare la potenza statistica di rilevamento di un dato incremento, è necessario un numero maggiore di visitatori, il che aumenta il tempo necessario per eseguire il test.

Per la potenza statistica viene spesso utilizzato un valore pari all’80%: significa che il test ha una probabilità dell’80% di rilevare una differenza uguale all’incremento rilevabile con affidabilità minima. Il test ha una minore probabilità di rilevare incrementi più piccoli e una maggiore probabilità di rilevare incrementi più ampi.

Incremento rilevabile con affidabilità minima section_6101367EE9634C298410BBC2148E33A9

La maggioranza delle organizzazioni desidera misurare la differenza minima possibile nel tasso di conversione, perché anche un incremento minimo vale la pena di essere implementato. Tuttavia, se desideri che il test A/B abbia una probabilità elevata di rilevare un piccolo incremento, il numero di visitatori che devono essere inclusi nel test sarà proibitivo. Il motivo è che, se la differenza nel tasso di conversione è piccola, entrambi i tassi di conversione devono essere stimati con precisione elevata per identificare la differenza, il che richiede molti visitatori. Pertanto, l’incremento rilevabile con affidabilità minima deve essere determinato in base ai requisiti di business, considerando un compromesso tra la rilevazione di incrementi limitati e l’esecuzione del test per periodi di tempo più lunghi.

Supponiamo ad esempio che due offerte (A e B) abbiano tassi di conversione effettivi rispettivamente del 10% e del 15%. Se queste offerte vengono mostrate a 100 visitatori ognuna, esiste una probabilità del 95% di osservare tassi di conversione compresi tra il 4% e il 16% per l’offerta A e tra l’8% e il 22% per l’offerta B, a causa della natura stocastica delle conversioni. Questi intervalli sono noti in statistica come intervalli di affidabilità o di confidenza. Essi rappresentano l’affidabilità della precisione dei tassi di conversione stimati. Maggiore è la dimensione del campione (più visitatori), maggiore è la certezza che le stime dei tassi di conversione siano precise.

L’immagine in basso mostra le distribuzioni delle probabilità.

immagine probabilità_distribuzioni

A motivo dell’ampia sovrapposizione tra i due intervalli, il test non può determinare se i tassi di conversione siano diversi. Pertanto, con questo test su 100 visitatori non è possibile distinguere tra le due offerte. Tuttavia, se Target espone le offerte a 5.000 visitatori ciascuno, esiste una probabilità del 95% che i tassi di conversione osservati scendano rispettivamente tra il 9% e l'11% e tra il 14% e il 16%.

immagine probability_distributions2

In questo caso, è improbabile che il test arrivi a una conclusione errata, quindi il test con 5.000 visitatori può distinguere tra le due offerte. Il test con 5.000 visitatori ha un intervallo di affidabilità di +/-1%. Ciò significa che il test può rilevare differenze di circa l’1%. Pertanto, sarebbero necessari ancora più visitatori se i tassi di conversione effettivi delle offerte fossero, ad esempio, del 10% e del 10,5%, anziché del 10% e del 15%.

Tasso di conversione linea di base section_39380C9CA3C649B6BE6E1F8A06178B05

Il tasso di conversione linea di base è il tasso di conversione dell’offerta di controllo (offerta A). Spesso, si ha una buona sensazione del livello di conversione per l’offerta in base all’esperienza. Se non è questo il caso, ad esempio se si tratta di un nuovo tipo di offerta o risorsa creativa, puoi eseguire il test per un giorno circa, in modo da ottenere una stima approssimativa del tasso di conversione linea di base, da utilizzare poi per calcolare la dimensione del campione.

Numero di visitatori section_19009F165505429E95291E6976E498DD

Può essere difficile trovare il giusto equilibrio tra costi di opportunità dell’esecuzione di un test per un tempo prolungato e il rischio di falsi positivi e falsi negativi. Ovviamente, non si vogliono prendere decisioni sbagliate, ma non è nemmeno auspicabile rimanere paralizzati da standard di test troppo rigidi o rigidi.

Come regola generale, sono consigliati un livello di affidabilità del 95% e una potenza statistica dell’80%.

Nel Calcolatore dimensione campione (disponibile dal collegamento fornito in precedenza) dovrai decidere l’importanza statistica (valore consigliato: 95%) e la potenza statistica (valore consigliato: 80%). Dopo che avrai inserito il tasso di conversione linea di base e il traffico giornaliero per tutte le offerte, il foglio di calcolo fornisce il numero di visitatori necessari per rilevare un incremento pari a 1%, 2%, 5%, 10%, 15% e 20% con una probabilità pari alla potenza specificata del test. Il foglio di calcolo consente inoltre all’utente di inserire un incremento rilevabile con affidabilità minima personalizzato. Inoltre, il foglio indica il numero di settimane richieste per il test in base al livello di traffico immesso. Il numero di settimane richiesto viene arrotondato alla settimana intera più vicina per evitare effetti del giorno della settimana che influenzino i risultati.

Esiste un compromesso tra l’incremento minimo che può essere identificato in modo affidabile dal test e il numero richiesto di visitatori. L’immagine qui sotto, che è valida per un tasso di conversione linea di base (il controllo) del 5%, mostra ricavi marcatamente decrescenti all’aumentare del numero di visitatori. L’incremento minimo che può essere rilevato in modo affidabile migliora enormemente quando si aggiungono i primi visitatori al test, ma richiede un numero sempre maggiore di visitatori per migliorare il test. L’immagine aiuta a trovare un compromesso adeguato tra il tempo necessario per eseguire il test (determinato dal numero di visitatori richiesti e dal traffico del sito) e l’incremento minimo rilevabile in modo affidabile.

immagine samplesizecontrol

In questo esempio, potresti decidere che la capacità di rilevare un incremento del 5% (corrispondente a un tasso di conversione dell’offerta alternativa di (100%+5%)*5% = 5,25%) in 80 test su 100 sia adeguata e che quindi sia necessario un campione di 100.000 visitatori per ogni offerta. Se il sito ha 20.000 visitatori al giorno e stai eseguendo un test per due offerte, il test deve essere eseguito per un numero di giorni pari a 2*100.000/20.000, ossia 10 giorni, prima che sia possibile determinare se l’offerta alternativa è significativamente superiore all’offerta di controllo, dal punto di vista statistico.

È sempre consigliabile arrotondare sempre il tempo necessario alla settimana intera più vicina, per evitare effetti legati a un singolo giorno della settimana. Così, in questo esempio, il test verrà eseguito per due settimane prima di valutare i risultati.

Metrica Ricavo per visita section_C704C0861C9B4641AB02E911648D2DC2

Quando si utilizza Ricavo per visita (RPV) come metrica, viene aggiunta un'ulteriore fonte di varianza perché RPV è il prodotto dei ricavi per ordine e tasso di conversione (RPV = Ricavo / #visitors = (Ricavo per ordine * #orders) / # visitatori = Ricavo per ordine * (#visitors * CTR) / #visitors = Ricavo per ordine * CTR), ciascuno con la propria varianza. La varianza del tasso di conversione può essere stimata direttamente utilizzando un modello matematico, ma la varianza dei ricavi per ordine è specifica per l’attività. Pertanto, utilizza la conoscenza di questa varianza dalle attività passate o esegui il test A/B per alcuni giorni per stimare la varianza nei ricavi. La varianza è calcolata in base ai valori di Somma delle vendite, Somma delle vendite al quadrato e Numero di visitatori che si trovano nel file CSV scaricabile. Una volta stabilito questo valore, utilizzare il foglio di calcolo per calcolare il tempo necessario per completare il test.

Con il Calcolatore dimensione campione (disponibile dal collegamento fornito in precedenza) puoi configurare più facilmente la metrica RPV. Quando apri il calcolatore, viene visualizzata una scheda con etichetta RPV Metric. Per usare la versione RPV del calcolatore, ti serviranno le seguenti informazioni:

Numero di visitatori dell’offerta di controllo
Ricavi totali dell’offerta di controllo

Assicurati che sia selezionato il filtro dell’ordine estremo.
La somma dei ricavi al quadrato per l’offerta di controllo

Assicurati che sia selezionato il filtro dell’ordine estremo.

In generale, l’utilizzo di RPV come metrica richiede un tempo maggiore del 20-30% per raggiungere lo stesso livello di affidabilità statistica per lo stesso livello di incremento misurato. Questo perché l’RPV ha la varianza aggiunta di diverse dimensioni di ordine per conversione. Questa dovrebbe essere una considerazione quando si sceglie tra tasso di conversione diretto e RPV come metrica su cui basare la decisione aziendale finale.

Correzione per il confronto tra più offerte section_1474113764224D0B85472D8B023CCA15

Ogni volta che confronti due offerte, la possibilità di ottenere un falso positivo (osservando una differenza statisticamente significativa anche quando non c’è alcuna differenza nel tasso di conversione) è pari al livello di significatività. Ad esempio, in presenza di cinque offerte, A/B/C/D/E, dove A è l’offerta di controllo, vengono effettuati quattro confronti (tra il controllo e B, tra il controllo e C, tra il controllo e D e tra il controllo ed E), e la probabilità di un falso positivo è pari al 18,5% anche quando il livello di affidabilità è del 95%, in quanto Pr (almeno un falso positivo) = 1 - Pr (nessun falso positivo) = 1 - 0,95= 18,5%. Un falso positivo è definito in questo contesto come l’indicazione che il controllo è migliore dell’alternativa, o viceversa, quando in realtà non c’è differenza tra i due.

Conclusione section_AEA2427B90AE4E9395C7FF4F9C5CA066

Utilizzando un'attività Auto-Allocate, Target identifica un vincitore tra due o più esperienze e ridistribuisce automaticamente più traffico per aumentare le conversioni, mentre il test continua a essere eseguito e ad apprendere. Auto-Allocate consente di raggiungere facilmente gli obiettivi di conversione rimuovendo il lavoro di stima.

Utilizzando il Calcolatore dimensione campione (disponibile dal collegamento fornito in precedenza) illustrato in questo articolo e consentendo l’esecuzione del test per il periodo di tempo suggerito, puoi essere certo di eseguire sempre test A/B di alta qualità conformi ai tassi di falsi positivi e falsi negativi stabiliti come adeguati per il test specifico. Questo assicura che i test siano coerenti e in grado di rilevare in modo affidabile l’incremento ricercato.

recommendation-more-help

3d9ad939-5908-4b30-aac1-a4ad253cd654