Test A/A

Ultimo aggiornamento: 20 luglio 2024

Argomenti:
Test A/B

Prima di eseguire un test A/A sul sito tramite Adobe Target, è importante comprendere cos'è un test A/A, il motivo per cui è consigliabile eseguire un test A/A, la durata dell'esecuzione e l'interpretazione dei risultati.

Cos’è il test A/A?

Prima di spiegare il test A/A, è opportuno rivedere il test A/B in modo da poter discutere le differenze.

In un test A/B standard, il traffico viene allocato a due o più esperienze diverse. Un’esperienza è in genere il "controllo" e le varianti dell’esperienza vengono testate rispetto al controllo per vedere quale esperienza crea il maggior incremento in una data metrica.

Il test A/A, tuttavia, comporta l’allocazione del traffico a due esperienze identiche, di solito con una suddivisione del traffico 50/50. Con un test A/B standard, in genere desideri scoprire un incremento nella conversione. Questo differisce da un test A/A in cui l'obiettivo è in genere quello di determinare che c'è no differenza di incremento tra le esperienze identiche.

Perché vorresti testare due esperienze identiche e quali risultati si ottengono?

Alcune organizzazioni eseguono test A/A quando implementano un nuovo strumento di test, ad esempio Target, per determinare se:

L’attività è stata impostata correttamente
Il codice è stato implementato correttamente
Il reporting è accurato

Anche se poche organizzazioni eseguono test A/A, è buona prassi eseguirli come esperimenti di "sanità" per creare fiducia dopo l’implementazione dello strumento o prima di eseguire test A/B che potrebbero influire sulla conversione e sui ricavi.

Perché potresti visualizzare l’incremento per un’esperienza quando le esperienze sono identiche?

Ci sono diversi motivi per cui potresti vedere l’incremento in un’esperienza rispetto a un’altra esperienza (identica):

Il test A/A è stato monitorato continuamente

Un problema comune nell’esecuzione di qualsiasi tipo di test, incluso un test A/A, consiste nell’esaminare i risultati in modo continuo e nell’interrompere anticipatamente un test quando si rileva una significatività statistica e si dichiara un’esperienza vincente. Gli analisti fanno spesso ciò che viene chiamato "sbirciamento dei dati". Il peking dei dati comporta l’esame dei dati del test in anticipo e con frequenza, cercando di determinare quale esperienza funziona meglio. Il rischio è quello di interrompere prematuramente il test, il che potrebbe invalidare i risultati.

In un test A/A, il data peking può spesso causare la visualizzazione dell’incremento da parte degli analisti in un’esperienza, quando in realtà non dovrebbe esserci alcuna differenza, perché le due esperienze sono identiche. Infatti, con un peeking continuo, i test A/A sono garantiti per mostrare una "significatività statistica" (vale a dire, un'affidabilità al di sopra di una certa soglia, ad esempio il 95%) ad un certo punto durante il test.

Per evitare questo problema, e come con un normale test A/B, è necessario quindi decidere in anticipo quale dimensione campione utilizzare, in base alla dimensione minima dell’effetto (l’incremento minimo al di sotto del quale un effetto non è importante per la tua azienda), alla potenza e ai livelli di significatività che ritieni accettabili.

In un test A/A, l'obiettivo sarebbe quindi non visualizzare un risultato statisticamente significativo dopo che il test ha raggiunto la dimensione di campione desiderata.

Adobe Target Sample Size Calculator è uno strumento importante per determinare la dimensione del campione da prendere in considerazione e la durata dell'esecuzione del test.

Calcolatore dimensioni Adobe Target

Inoltre, consulta i seguenti articoli per informazioni sulla durata di un’attività e altri suggerimenti utili:

La rilevanza statistica influisce sui risultati dei test

Il livello di significatività di un test determina la probabilità che il test riporti una differenza significativa nei tassi di conversione tra due offerte diverse, quando in realtà non c’è alcuna differenza reale. Questo è noto come falso positivo o errore di tipo I. Il livello di significatività è una soglia specificata dall’utente ed esiste un compromesso tra la tolleranza per i falsi positivi e il numero di visitatori che devono essere inclusi nel test per scegliere il livello di significatività corretto.

Un livello di significatività comunemente utilizzato nei test A/A e A/B è 5%, che corrisponde a un livello di affidabilità del 95% (livello di affidabilità = 100% - livello di significatività). Un livello di affidabilità del 95% significa che ogni volta che esegui un test, esiste una probabilità del 5% di rilevare un incremento statisticamente significativo anche se non vi è alcuna differenza tra le esperienze.

Supponi di voler raggiungere un livello di affidabilità del 95% con il test A/A. Con un livello di affidabilità del 95%, 1 test A/A su 20 potrebbe mostrare un incremento statisticamente significativo nelle conversioni. Con un livello di affidabilità del 90%, 1 test su 10 potrebbe mostrare un incremento delle conversioni durante il test di esperienze identiche.

Best practice

Se ritieni necessario un test A/A nell’organizzazione, tieni presente che le esperienze identiche potrebbero mostrare temporaneamente una differenza rispetto al controllo. Questo può essere normale, a seconda del tempo in cui il test può essere eseguito. La differenza dovrebbe ridursi con l’aumentare del tempo e dei visitatori.

Si consiglia di utilizzare una metodologia di test A/B regolare: decidere la dimensione del campione in anticipo in base a una dimensione minima dell'effetto rilevante, alla potenza desiderata e alla rilevanza utilizzando il calcolatore delle dimensioni di Adobe Target.

Quindi, lascia un tempo adeguato e i visitatori prima di raggiungere qualsiasi conclusione, e ricorda che a seconda del livello di significatività del test, c'è la possibilità che un'esperienza mostri una differenza nell'incremento, e possa anche essere dichiarata vincitrice.

recommendation-more-help