Modelli di ottimizzazione automatica auto-optimization-model
Un modello di ottimizzazione automatica mira a fornire offerte che massimizzano il rendimento (KPI) impostato dai clienti aziendali. Questi KPI potrebbero essere sotto forma di tassi di conversione, ricavi, ecc. A questo punto, l’ottimizzazione automatica si concentra sull’ottimizzazione dei clic dell’offerta con la conversione dell’offerta come obiettivo. L’ottimizzazione automatica non è personalizzata e viene ottimizzata in base alle prestazioni "globali" delle offerte.
Limitazioni limitations
L’utilizzo di modelli di ottimizzazione automatica per la gestione delle decisioni è soggetto alle limitazioni seguenti:
- I modelli di ottimizzazione automatica non funzionano con l’API Batch Decisioning.
- Il feedback necessario per creare il modello deve essere inviato come evento esperienza. Non deve essere inviato automaticamente in Journey Optimizer canali.
Terminologia terminology
I seguenti termini sono utili quando si parla di ottimizzazione automatica:
-
Slot machine: un approccio all'ottimizzazione Slot machine compensa l'apprendimento esplorativo e il suo sfruttamento.
-
Campionamento di Thompson: il campionamento di Thompson è un algoritmo per i problemi decisionali online in cui le azioni vengono eseguite in sequenza in modo da bilanciare lo sfruttamento di ciò che è noto per massimizzare le prestazioni immediate e l'investimento di nuove informazioni che possono migliorare le prestazioni future. Ulteriori informazioni
-
Distribuzione Beta: set di distribuzioni di probabilità continue definite nell'intervallo [0, 1] con parametri da due parametri forma positivi.
Campionamento di Thompson thompson-sampling
L'algoritmo alla base dell'ottimizzazione automatica è campionamento di Thompson. In questa sezione viene descritta l’intuizione alla base del campionamento di Thompson.
Il campionamento di Thompson, o banditi bayesiani, è un approccio bayesiano al problema della slot machine. L'idea di base è quella di trattare il ?? di ricompensa medio di ogni offerta come una variabile casuale e utilizzare i dati raccolti finora, per aggiornare la nostra "convinzione" sul premio medio. Questa "convinzione" è rappresentata matematicamente da una distribuzione di probabilità posteriore - essenzialmente un intervallo di valori per la ricompensa media, insieme alla plausibilità (o probabilità) che la ricompensa abbia quel valore per ogni offerta. Quindi, per ogni decisione, preleveremo un punto da ciascuna di queste distribuzioni di premi posteriori e selezioneremo l'offerta con la ricompensa campionata con il valore più alto.
Questo processo è illustrato nella figura seguente, dove sono disponibili 3 diverse offerte. Inizialmente non abbiamo alcuna prova dai dati e supponiamo che tutte le offerte abbiano una distribuzione di ricompensa a posteriori uniforme. Prendiamo un campione dalla distribuzione di ogni offerta di premi a posteriori. Il campione selezionato dalla distribuzione di Offerta 2 ha il valore più alto. Questo è un esempio di esplorazione. Dopo aver mostrato l'Offerta 2, raccogliamo qualsiasi potenziale ricompensa (ad esempio conversione/non conversione) e aggiorniamo la distribuzione posteriore dell'Offerta 2 utilizzando il Teorema di Bayes come spiegato di seguito. Continuiamo questo processo e aggiorniamo le distribuzioni posteriori ogni volta che viene mostrata un’offerta e viene raccolto il premio. Nella seconda figura, viene selezionata l'Offerta 3 - nonostante l'Offerta 1 abbia la più alta ricompensa media (la sua distribuzione di ricompensa posteriore è più a destra), il processo di campionamento da ogni distribuzione ci ha portato a scegliere un'Offerta 3 apparentemente non ottimale. In questo modo, offriamo a noi stessi l'opportunità di conoscere meglio la vera distribuzione delle ricompense offerta 3.
Man mano che vengono raccolti più campioni, l’affidabilità aumenta e si ottiene una stima più accurata del possibile premio (corrispondente a distribuzioni più ridotte). Questo processo di aggiornamento delle nostre convinzioni man mano che diventano disponibili ulteriori prove è noto come Inferenza bayesiana.
Alla fine, se un'offerta (ad es. Offerta 1) è un chiaro vincitore, la sua distribuzione successiva della ricompensa sarà separata dagli altri. A questo punto, per ogni decisione, la ricompensa campionata dall’Offerta 1 è probabilmente la più alta e la sceglieremo con una probabilità più elevata. Si tratta di sfruttamento. Siamo convinti che l'offerta 1 sia la migliore e quindi viene scelta per massimizzare i premi.
Figura 1: Per ogni decisione, campioniamo un punto dalle distribuzioni di premi posteriori. Verrà scelta l’offerta con il valore di esempio più alto (tasso di conversione). Nella fase iniziale, tutte le offerte hanno una distribuzione uniforme, in quanto non disponiamo di alcuna evidenza sui tassi di conversione delle offerte dai dati. Mentre raccogliamo più campioni, le distribuzioni posteriori diventano più strette e più precise. In ultima analisi, l'offerta con il tasso di conversione più alto verrà scelta ogni volta.
Per calcolare/aggiornare le distribuzioni, si utilizza Teorema di Bayes. Per ogni offerta i, vogliamo calcolare la loro P(??i | dati), ovvero per ogni offerta i, quanto è probabile un valore di ricompensa ??i, dati i dati raccolti finora per tale offerta.
Dal Teorema Di Bayes:
Posteriore = Probabilità * Precedente
La probabilità precedente è la stima iniziale della probabilità di produzione di un output. La probabilità, dopo aver raccolto alcune prove, è nota come probabilità posteriore.
L’ottimizzazione automatica è progettata per prendere in considerazione i premi binari (clic/nessun clic). In questo caso, la probabilità rappresenta il numero di successi da N prove ed è modellata da una distribuzione binomiale. Per alcune funzioni di verosimiglianza, se si sceglie una certa distribuzione a priori, la distribuzione a posteriori finisce per essere nella stessa distribuzione della distribuzione a priori. Tale priore è chiamato priore coniugato. Questo tipo di distribuzione a priori rende il calcolo della distribuzione a posteriori molto semplice. La distribuzione Beta è coniugata prima della probabilità binomiale (premi binari), quindi è una scelta comoda e ragionevole per le distribuzioni di probabilità precedenti e posteriori. La distribuzione Beta prende due parametri, α e β. Questi parametri possono essere considerati come il conteggio dei successi e degli errori e il valore medio dato da:
La funzione Likelihood, come spiegato in precedenza, è modellata da una distribuzione binomiale, con s successi (conversioni) e f errori (nessuna conversione) e q è una variabile casuale con una distribuzione beta.
La distribuzione a priori è modellata dalla distribuzione Beta e la distribuzione a posteriori assume la seguente forma:
La parte posteriore viene calcolata semplicemente aggiungendo il numero di successi ed errori ai parametri esistenti α, β.
Per l'ottimizzazione automatica, come mostrato nell'esempio precedente, si inizia con una distribuzione precedente Beta(1, 1) (distribuzione uniforme) per tutte le offerte e dopo aver ottenuto s successi e f errori per una determinata offerta, la distribuzione posteriore diventa una distribuzione Beta con parametri (s+α, f+β) per tale offerta.
Argomenti correlati:
Per un approfondimento sul campionamento di Thompson, leggi i seguenti articoli di ricerca:
Problema di avviamento a freddo cold-start
Il problema di "avviamento a freddo" si verifica quando una nuova offerta viene aggiunta a una campagna e non sono disponibili dati sul tasso di conversione della nuova offerta. Durante questo periodo, dovremo elaborare una strategia che indichi la frequenza con cui questa nuova offerta viene scelta in modo da ridurre al minimo il calo delle prestazioni, mentre raccoglieremo informazioni sul tasso di conversione di questa nuova offerta. Sono disponibili diverse soluzioni per affrontare questo problema. La chiave è trovare un equilibrio tra l'esplorazione di questa nuova offerta, mentre non sacrifichiamo molto lo sfruttamento. Attualmente utilizziamo la "distribuzione uniforme" come stima iniziale del tasso di conversione della nuova offerta (distribuzione precedente). In sostanza, tutti i valori del tasso di conversione hanno la stessa probabilità di verificarsi.
Figura 2: Considera una campagna con 3 offerte. Durante la pubblicazione della campagna, alla campagna viene aggiunta l’Offerta 4. Inizialmente non disponiamo di dati sul tasso di conversione dell’Offerta 4 e dobbiamo affrontare il problema dell’avviamento a freddo. Utilizziamo la distribuzione uniforme come ipotesi iniziale sul tasso di conversione dell’offerta 4, mentre raccogliamo i dati per questa nuova offerta. Come spiegato nella sezione Campionamento di Thompson, per scegliere quale offerta verrà mostrata a un utente, campioniamo punti dalle distribuzioni di premi posteriori delle offerte e selezioniamo l'offerta con il valore di esempio più alto. Nell'esempio precedente, l'Offerta 4 viene scelta e successivamente in base alla ricompensa raccolta, la distribuzione posteriore di questa offerta viene aggiornata come spiegato nella sezione Campionamento di Thompson.
Misurazione dell’incremento lift
"Incremento" è la metrica utilizzata per misurare le prestazioni di qualsiasi strategia implementata nel servizio di classificazione, rispetto alla strategia di base (serving delle offerte solo in modo casuale).
Ad esempio, se siamo interessati a misurare le prestazioni di una strategia di campionamento di Thompson (TS) utilizzata nel servizio di classificazione e il KPI è il tasso di conversione (CVR), l’"incremento" della strategia TS rispetto alla strategia di base è definito come segue: