Automatiskt optimerade modeller auto-optimization-model

Adobe Journey Optimizers Automatisk optimeringsmodell är en förstärkande inlärningsmodell som maximerar antalet erbjudanden som kan klickas igenom genom att utforska alla erbjudanden (eller innehåll) och sedan rangordna objekt baserat på förväntad CTR, efter att regler för behörighet och frekvensgränser har tillämpats.

Användningsexempel och fördelar use-cases-benefits

Automatisk optimering kan användas när du vill ha snabb och enkel konfiguration, vill hitta övergripande vinnande erbjudanden och vill maximera antalet erbjudanden i en enda kanal. Exempel:

  • Välj de bästa erbjudandena att infoga på en webbsida för att maximera antalet erbjudanden.
  • Välj de bästa erbjudandena att infoga i ett e-postmeddelande för att maximera antalet erbjudanden.
  • Välj de bästa erbjudandena att infoga på en mobilappsskärm för att maximera antalet erbjudanden.

Automatisk optimering är ett bra alternativ när:

  • Erbjudandena ändras över tid eller ofta: Automatisk optimering omutbildas var sjätte timme.

Krav och begränsningar requirements-limitations

Automatisk optimering har följande krav och begränsningar:

  • Automatisk optimering kräver en utbildningsdatauppsättning som innehåller erbjudandevisningshändelser, erbjudandeklickningshändelser och fältgruppen Experience Event - Proposition Interactions.
  • Automatiska optimeringsmodeller kan inte användas i begäranden till API:t för gruppbeslut.
  • Automatisk optimering optimerar alltid för klickningar. Om du vill maximera för ett annat mål än att erbjuda klickningar använder du modellen för anpassad optimering.
  • Automatisk optimering försöker hitta övergripande vinnande erbjudanden och hittar ingen anpassad rankning för varje kund. Använd modellen Personaliserad optimering för att hitta personaliserade rankningar för varje kund.

För att utbilda en automatisk optimeringsmodell måste datauppsättningen uppfylla följande minimikrav:

  • Minst två erbjudanden i datauppsättningen måste ha minst 100 visningshändelser och 5 klickningshändelser under de senaste 14 dagarna.
  • Erbjudanden med färre än 100 skärmar och/eller 5 klickningar under de senaste 14 dagarna behandlas av modellen som nya erbjudanden och kan endast hanteras av undersökningsbanken.
  • Erbjudanden med fler än 100 skärmar och 5 klickningshändelser under de senaste 14 dagarna behandlas av modellen som befintliga erbjudanden och kan hanteras av både utforsknings- och utnyttjandebanditer.

Tills första gången en automatisk optimeringsmodell tränas kommer erbjudanden inom en urvalsstrategi som använder en automatisk optimeringsmodell att presenteras på måfå.

Balancing optimization with learning balancing-optimization-learning

Automatisk optimering är en förstärkande inlärningsmodell som lär sig om klickningsprestanda för erbjudanden baserat på verkliga kundbeteenden. Förstärkta utbildningsmodeller syftar till att maximera ett mål genom att välja åtgärder med bättre förutsedda resultat. Men en modell som alltid ger varje kund de objekt som har det bästa förväntade resultatet skulle aldrig lära sig om hur nya produkter som introducerats över tiden fungerar (det så kallade"kallstartsproblemet") och inte heller lära sig om prestandaförändringar för andra befintliga objekt som beror på förändringar i kundernas beteende över tiden. Förstärkt inlärningsmodell måste därför hantera det som vanligen kallas utforsknings-/utnyttjandehandeln, dvs. balansera optimering med inlärning.

Automatisk optimering använder en gemensam metod som kallas flerarmad bandit för att hantera handeln. Den multiväpnade banken fattar beslut om rangordningen baserat på:

  • den förväntade genomklickningsfrekvensen för varje objekt
  • skillnaderna i den förväntade genomklickningsfrekvensen för varje artikel
  • Modellens grad av osäkerhet om dess prognoser för varje post.

Flerarmade band använder denna information tillsammans med slumpmässiga variationer för att välja vilka åtgärder som ska vidtas. Automatisk optimering är en ensemble-algoritm som innehåller flera flerbeväpnade band för att säkerställa att alla erbjudanden utforskas korrekt och samtidigt maximera den totala prestandan.

När en"övervakande" multibeväpnad bandit besvarar en rankningsbegäran görs först ett val av om denna begäran ska vara partisk eller partisk mot utforskandet eller partisk mot utnyttjande. Detta beslut fattas med en"epsilon-greedy"-strategi.

Det andra rangordningslagret utförs av ett av två Thompson-samplingsband:

  • 10 % av trafiken går till en utforskningsinriktad bandit som troligtvis rekommenderar nya erbjudanden eller erbjudanden med begränsade data, under antagandet att modellen skulle kunna dra nytta av att lära sig mer om kundernas beteende som svar på dessa erbjudanden.
  • 90 % av trafiken går till en målinriktad bandit som mer sannolikt alltid rekommenderar högpresterande erbjudanden över tiden, under antagandet att nya eller låga datamöjligheter är mer benägna att underprestera tills motsatsen bevisas.

I tekniskt avseende är dessa antaganden parametrar för den tidigare sannolikhetsfördelningen, som också kallas priors. I takt med att erbjudandena samlar in fler data för visning och klickning blir effekten av de valda leverantörerna mindre, och prognoserna från de två banditerna tenderar att sammanfalla över tiden.

Vår metod att kombinera flera bandbredder och tilldela viss dedikerad trafik för prospektering ger flera fördelar:

  • modellen lär sig snabbt om de senaste erbjudandena med minsta möjliga data
  • modellen fortsätter att lära sig om alla erbjudanden och svarar på förändringar i kundbeteendet över tid
  • Modellen överpassar inte genom aggressivt fördelaktiga erbjudanden med högre synlig CTR, men med få observationer eller aggressivt nedsättande erbjudanden med lägre synlig CTR, men med få observationer.
  • modellen är robust för att hantera beslut om trafiktilldelning över hundratals erbjudanden med knappa data och med mycket olika historiska data

Thompson sampling thompson-sampling

Thompson sampling, eller Bayesian bandits, är en bayesisk lösning på problemet med flerarmad bandit. Modellen behandlar den genomsnittliga belöningen 𝛍 från varje erbjudande som en slumpmässig variabel och använder data som vi hittills har samlat in för att uppdatera vår"tro" om den genomsnittliga belöningen. Denna"trosuppfattning" representeras matematiskt av en fördelning av sannolikhet i efterhand - i huvudsak ett intervall av värden för den genomsnittliga belöningen, tillsammans med sannolikheten (eller sannolikheten) att belöningen har det värdet för varje erbjudande. För varje beslut tar vi sedan ett prov från var och en av dessa belöningar och väljer det erbjudande vars belöning var högst.

Denna process illustreras i bilden nedan, där vi har tre olika erbjudanden. Till att börja med har vi inga bevis från data, och vi antar att alla erbjudanden har en enhetlig fördelning efter belöningen. Vi tar ett prov från varje offerts fördelning efter belöningen. Det exempel som valts ut från distributionen av erbjudandet 2 har det högsta värdet. Detta är ett exempel på utforskning. När vi har visat erbjudandet 2 samlar vi in eventuell belöning (t.ex. konvertering/ingen konvertering) och uppdaterar posteriordistributionen av erbjudandet 2 med hjälp av Bayes Theorem enligt nedan. Vi fortsätter med den här processen och uppdaterar efterhandsfördelningen varje gång ett erbjudande visas och belöningen samlas in. I den andra siffran väljs erbjudande 3 - trots att erbjudandet 1 har den högsta genomsnittliga belöningen (den posteriorbelöningsfördelningen ligger längst till höger) har provtagningsprocessen från varje distribution lett till att vi valt ett till synes ooptimalt erbjudande 3. På så sätt ger vi oss själva möjlighet att lära oss mer om Offer 3:s verkliga belöningsfördelning.

I takt med att fler prover samlas in ökar förtroendet och en mer korrekt uppskattning av den möjliga belöningen görs (motsvarande mindre belöningar). Den här processen med att uppdatera vår tro allt eftersom fler bevis blir tillgängliga kallas Bayesian Inference.

Om ett erbjudande (t.ex. erbjudande 1) är en tydlig vinnare kommer dess belöningsfördelning att separeras från andra. För varje beslut är den utvalda belöningen från erbjudande 1 troligtvis den högsta, och vi väljer den med större sannolikhet. Det här är utnyttjande - vi har en stark tro på att erbjudande 1 är det bästa, och därför väljs det för att maximera belöningar.

Figur 1: För varje beslut tar vi ett prov från en punkt från belöningsfördelningen. Erbjudandet med det högsta samplingsvärdet (konverteringsgrad) kommer att väljas. I den inledande fasen har alla erbjudanden en enhetlig fördelning eftersom vi inte har några belägg för konverteringsgraden för erbjudandena från uppgifterna. Efterhandsdistributionen blir snävare och mer exakt när vi samlar in fler prover. I slutändan väljs erbjudandet med den högsta konverteringsgraden varje gång.

Beräkningsinformation

För att beräkna/uppdatera distributioner använder vi Bayes' Theorem. För varje erbjudande i vill vi beräkna deras P(𝛍i | data), d.v.s. för varje erbjudande i, hur sannolikt det är att ett belöningsvärde 𝛍i är, med tanke på de data vi hittills har samlat in för det erbjudandet.

Från Bayes Theorem:

Posterior = Sannolikhet * Tidigare

Sannolikheten för föregående är den inledande gissningen om sannolikheten för att skapa utdata. Sannolikheten, efter att vissa bevis har samlats in, kallas för den posteriorsannolikheten.

Automatisk optimering är utformat för att ta hänsyn till binära belöningar (klicka/klicka inte). I detta fall representerar sannolikheten antalet lyckade försök från N-prövningar och modelleras av en binomialfördelning. För vissa sannolikhetsfunktioner, om du väljer en viss tidigare version, hamnar den bakre delen i samma fördelning som den föregående. En sådan tidigare version kallas konjugera tidigare. Den här typen av förhandsversioner gör det väldigt enkelt att beräkna posteriorfördelningen. Beta-fördelningen är ett konjugat före binomialsannolikheten (binära belöningar) och är därför ett bekvämt och vettigt val för tidigare och senare sannolikhetsfördelningar. Beta-distributionen har två parametrar, α och β. Dessa parametrar kan ses som antalet lyckade och misslyckade samt medelvärdet som ges av:

Sannolikhetsfunktionen enligt ovan är baserad på en Binomial-fördelning, med lyckade (konverteringar) och fel (inga konverteringar) och q är en slumpmässig variabel med en Beta-distribution.

Föregående modell baseras på distributionen av Beta och den bakre distributionen har följande format:

Prospekteringsfördomar och exploateringsfördomar exploration-exploitation-bias

Ett startvärde måste väljas för parametrarna α, β. Automatisk optimering innefattar både en experimentellt partisk Thompson-samplingsbandit och en driftsinriktad Thompson-samplingsbandit som använder olika initiala α -, β -priorer i sina betadistributioner.

I en allmän Thompson-samplingsmetod beräknas bakgrunden genom att antalet lyckade och misslyckade försök läggs till i de befintliga parametrarna α, β. Automatisk optimering använder olika viktningsfaktorer för nya framgångar och misslyckanden med att ändra effekten av nya data jämfört med tidigare data i både den experimentella och den driftsinriktade banditen.

Referenser references

En djupdykning i Thompson-banditerna finns i följande forskningsrapporter:

recommendation-more-help
b22c9c5d-9208-48f4-b874-1cefb8df4d76