Modelli di ottimizzazione automatica auto-optimization-model

Il modello di ottimizzazione automatica di Adobe Journey Optimizer è un modello di apprendimento di rinforzo che massimizza il tasso di click-through delle offerte esplorando tutte le offerte (o i contenuti), quindi classificando gli elementi in base al CTR previsto, dopo l'applicazione delle regole di idoneità e dei limiti di frequenza.

Casi d’uso e vantaggi use-cases-benefits

L’ottimizzazione automatica può essere utilizzata in qualsiasi momento desideri una configurazione rapida e semplice, trovare offerte vincenti complessive e massimizzare i clic sulle offerte all’interno di un singolo canale. Ad esempio:

  • Scegli le offerte migliori da inserire in una pagina web per massimizzare i clic sulle offerte.
  • Scegli le offerte migliori da inserire in un’e-mail per massimizzare i clic sulle offerte.
  • Scegli le offerte migliori da inserire nella schermata di un’app mobile per massimizzare i clic sulle offerte.

L’ottimizzazione automatica è una buona scelta quando:

  • Le offerte cambiano nel tempo o di frequente: il modello di ottimizzazione automatica viene riqualificato ogni sei ore.

Requisiti e limitazioni requirements-limitations

L’ottimizzazione automatica presenta i seguenti requisiti e limiti:

  • L’ottimizzazione automatica richiede un set di dati di formazione contenente eventi di visualizzazione dell’offerta, eventi di clic dell’offerta e il gruppo di campi Evento esperienza - Interazioni proposta.
  • I modelli di ottimizzazione automatica non possono essere utilizzati nelle richieste all’API Batch Decisioning.
  • L’ottimizzazione automatica ottimizza sempre in base ai clic dell’offerta. Per massimizzare per un obiettivo diverso dai clic sulle offerte, utilizza il modello Ottimizzazione personalizzata.
  • L’ottimizzazione automatica cerca di trovare offerte complessivamente vincenti e non trova una classificazione personalizzata per ciascun cliente. Per trovare classificazioni personalizzate per ogni cliente, utilizza il modello Ottimizzazione personalizzata.

Per addestrare un modello di ottimizzazione automatica, il set di dati deve soddisfare i seguenti requisiti minimi:

  • Almeno 2 offerte nel set di dati devono avere almeno 100 eventi di visualizzazione e 5 eventi di clic negli ultimi 14 giorni.
  • Le offerte con meno di 100 visualizzazioni e/o 5 eventi di clic negli ultimi 14 giorni verranno trattate dal modello come nuove offerte e saranno idonee solo per essere servite dal team di esplorazione.
  • Le offerte con più di 100 display e 5 eventi di clic negli ultimi 14 giorni verranno trattate dal modello come offerte esistenti e potranno essere servite da banditi sia di esplorazione che di sfruttamento.

Fino alla prima volta che viene addestrato un modello di ottimizzazione automatica, le offerte all’interno di una strategia di selezione che utilizza un modello di ottimizzazione automatica verranno servite a caso.

Bilanciamento dell’ottimizzazione con l’apprendimento balancing-optimization-learning

L'ottimizzazione automatica è un modello di apprendimento per rinforzi che apprende le prestazioni di click-through delle offerte in base al comportamento reale dei clienti. I modelli di apprendimento per il rafforzamento cercano di massimizzare un obiettivo scegliendo azioni con risultati migliori. Tuttavia, un modello che presentasse sempre a ogni cliente gli elementi con il miglior risultato previsto non apprenderebbe mai le prestazioni dei nuovi elementi introdotti nel tempo (il cosiddetto "problema dell’avviamento a freddo"), né le variazioni delle prestazioni di altri elementi esistenti derivanti da cambiamenti nel comportamento dei clienti nel tempo. I modelli di apprendimento per rinforzo devono quindi gestire quello che viene comunemente definito compromesso tra esplorazione e sfruttamento, ovvero l'ottimizzazione del bilanciamento con l'apprendimento.

L'ottimizzazione automatica utilizza un approccio comune denominato slot machine per gestire il compromesso. La banca multiarmata prende decisioni di classificazione sulla base di:

  • il tasso di click-through previsto per ciascun elemento
  • le differenze nel tasso di click-through previsto per ogni elemento
  • il grado di incertezza del modello sulle previsioni per ciascun elemento.

I banditi multiarmati utilizzano queste informazioni, insieme alla variabilità casuale, per scegliere le azioni da intraprendere. L'ottimizzazione automatica è un algoritmo di insieme che contiene più banditi multiarmati per garantire che tutte le offerte siano adeguatamente esplorate e massimizzare le prestazioni complessive.

Quando risponde a una richiesta di classificazione, un bandit multi-armato "supervisore" fa prima una scelta se questa richiesta dovrebbe essere tendenziosa verso l'esplorazione o tendente allo sfruttamento. Questa decisione viene presa usando un approccio "epsilon-greedy".

Il secondo livello di classificazione viene eseguito da uno dei due banditi di campionamento Thompson:

  • Il 10% del traffico viene allocato a una slot machine incentrata sull’esplorazione che ha maggiori probabilità di consigliare nuove offerte o quelle con dati limitati, partendo dal presupposto che il modello trarrebbe vantaggio dall’apprendere di più sul comportamento del cliente in risposta a tali offerte.
  • Il 90% del traffico è allocato a una banca incentrata sullo sfruttamento che ha maggiori probabilità di consigliare costantemente offerte ad alte prestazioni nel tempo, partendo dal presupposto che le offerte nuove o a basso contenuto di dati abbiano maggiori probabilità di ottenere prestazioni inferiori, fino a prova contraria.

In senso tecnico, queste ipotesi sono parametri della distribuzione di probabilità precedente, anche denominati precedenti. Man mano che le offerte raccolgono più dati di visualizzazione e di clic, l'influenza dei priori scelti diventa più bassa e le previsioni fatte dai due banditi tendono a convergere nel tempo.

Il nostro approccio che prevede la combinazione di più banditi e l’allocazione di parte del traffico dedicato per l’esplorazione offre diversi vantaggi:

  • il modello viene a conoscenza più rapidamente delle offerte più recenti con il minor numero di dati
  • il modello continua a conoscere tutte le offerte e risponde ai cambiamenti nel comportamento dei clienti nel tempo
  • il modello non si adatta eccessivamente favorendo aggressivamente le offerte con CTR apparente più elevato ma poche osservazioni, o sfavorendo aggressivamente le offerte con CTR apparente più basso ma poche osservazioni
  • il modello è affidabile per gestire le decisioni di allocazione del traffico tra centinaia di offerte con dati di clic sparsi e con quantità molto diverse di dati storici

Campionamento di Thompson thompson-sampling

Il campionamento di Thompson, o banditi bayesiani, è un approccio bayesiano al problema della slot machine. Il modello considera il premio medio 𝛍 di ogni offerta come una variabile casuale e utilizza i dati raccolti finora per aggiornare le nostre "convinzioni" sul premio medio. Questa "convinzione" è rappresentata matematicamente da una distribuzione di probabilità posteriore - essenzialmente un intervallo di valori per la ricompensa media, insieme alla plausibilità (o probabilità) che la ricompensa abbia quel valore per ogni offerta. Quindi, per ogni decisione, campioneremo un punto da ciascuna di queste distribuzioni di premi posteriori e selezioneremo l'offerta la cui ricompensa campionata aveva il valore più alto.

Questo processo è illustrato nella figura seguente, dove sono disponibili 3 diverse offerte. Inizialmente non abbiamo alcuna prova dai dati, e supponiamo che tutte le offerte abbiano una distribuzione di ricompensa a posteriori uniforme. Prendiamo un campione dalla distribuzione di ogni offerta di premi a posteriori. Il campione selezionato dalla distribuzione di Offerta 2 ha il valore più alto. Questo è un esempio di esplorazione. Dopo aver mostrato l'Offerta 2, raccogliamo qualsiasi potenziale ricompensa (ad esempio conversione/non conversione) e aggiorniamo la distribuzione posteriore dell'Offerta 2 utilizzando il Teorema di Bayes come spiegato di seguito. Continuiamo questo processo e aggiorniamo le distribuzioni posteriori ogni volta che viene mostrata un’offerta e viene raccolto il premio. Nella seconda figura, viene selezionata l'Offerta 3 - nonostante l'Offerta 1 abbia la più alta ricompensa media (la sua distribuzione di ricompensa posteriore è più a destra), il processo di campionamento da ogni distribuzione ci ha portato a scegliere un'Offerta 3 apparentemente non ottimale. In questo modo, ci offriamo l'opportunità di conoscere meglio la vera distribuzione delle ricompense dell'Offerta 3.

Man mano che vengono raccolti più campioni, l’affidabilità aumenta e si ottiene una stima più accurata del possibile premio (corrispondente a distribuzioni più ridotte). Questo processo di aggiornamento delle nostre convinzioni man mano che diventano disponibili ulteriori prove è noto come Inferenza bayesiana.

Alla fine, se un'offerta (ad es. Offerta 1) è un chiaro vincitore, la sua distribuzione successiva della ricompensa sarà separata dagli altri. A questo punto, per ogni decisione, la ricompensa campionata dall’Offerta 1 è probabilmente la più alta e la sceglieremo con una probabilità più elevata. Siamo convinti che l'Offerta 1 sia la migliore, e quindi viene scelta per massimizzare i premi.

Figura 1: Per ogni decisione, campioniamo un punto dalle distribuzioni di premi posteriori. Verrà scelta l’offerta con il valore di esempio più alto (tasso di conversione). Nella fase iniziale, tutte le offerte hanno una distribuzione uniforme, in quanto non disponiamo di alcuna evidenza sui tassi di conversione delle offerte dai dati. Mentre raccogliamo più campioni, le distribuzioni posteriori diventano più strette e più precise. In ultima analisi, l'offerta con il tasso di conversione più alto verrà scelta ogni volta.

Dettagli di calcolo

Per calcolare/aggiornare le distribuzioni, si utilizza il Teorema di Bayes. Per ogni offerta i, vogliamo calcolare i loro P(𝛍i | dati), ovvero per ogni offerta i, quanto è probabile un valore di ricompensa 𝛍i, dati i dati raccolti finora per tale offerta.

Dal Teorema Di Bayes:

Posteriore = Probabilità * Precedente

La probabilità precedente è la stima iniziale della probabilità di produzione di un output. La probabilità, dopo aver raccolto alcune prove, è nota come probabilità posteriore.

L’ottimizzazione automatica è progettata per prendere in considerazione i premi binari (clic/nessun clic). In questo caso, la probabilità rappresenta il numero di successi da N studi ed è modellata da una distribuzione binomiale. Per alcune funzioni di verosimiglianza, se si sceglie una certa distribuzione a priori, la distribuzione a posteriori finisce per essere nella stessa distribuzione della distribuzione a priori. Tale priore è chiamato priore coniugato. Questo tipo di distribuzione a priori rende il calcolo della distribuzione a posteriori molto semplice. La distribuzione Beta è coniugata prima della probabilità binomiale (premi binari) e quindi è una scelta conveniente e ragionevole per le distribuzioni di probabilità precedenti e posteriori. La distribuzione Beta accetta due parametri, α e β. Questi parametri possono essere considerati come il conteggio dei successi e degli errori e il valore medio dato da:

La funzione Likelihood come spiegato in precedenza è modellata da una distribuzione binomiale, con s successi (conversioni) e f fallimenti (nessuna conversione) e q è una variabile casuale con una distribuzione Beta.

La distribuzione a priori è modellata dalla distribuzione Beta e la distribuzione a posteriori assume la seguente forma:

Pregiudizio per l'esplorazione e pregiudizio per lo sfruttamento exploration-exploitation-bias

È necessario scegliere un valore iniziale per i parametri α, β. L'ottimizzazione automatica include sia un modulo di campionamento Thompson basato sull'esplorazione che un modulo di campionamento Thompson basato sull'utilizzo che utilizzano diversi moduli iniziali α, β nelle loro distribuzioni beta.

In un approccio di campionamento generale di Thompson, la parte posteriore viene calcolata semplicemente aggiungendo il numero di successi ed errori ai parametri esistenti α, β. L’ottimizzazione automatica utilizza diversi fattori di ponderazione per i nuovi successi e gli errori nel modificare l’impatto dei nuovi dati rispetto ai dati precedenti sia nei bit orientati all’esplorazione che in quelli orientati allo sfruttamento.

Riferimenti references

Per informazioni più approfondite sui banditi di campionamento di Thompson, consulta i seguenti articoli di ricerca:

recommendation-more-help
b22c9c5d-9208-48f4-b874-1cefb8df4d76