Modellen voor automatische optimalisatie auto-optimization-model
Een model voor automatische optimalisatie is bedoeld voor aanbiedingen die het rendement (KPI's) maximaliseren dat door zakelijke klanten is ingesteld. Deze KPI’s kunnen de vorm aannemen van omrekeningskoersen, inkomsten, enz. Op dit punt, richt de auto-optimalisering zich op optimaliserend aanbiedingskliks met aanbiedingsomzetting als ons doel. Automatisch optimaliseren is niet-gepersonaliseerd en optimaliseert op basis van 'algemene' prestaties van de aanbiedingen.
Beperkingen limitations
Voor het gebruik van modellen voor automatische optimalisatie voor besluitvormingsbeheer gelden de onderstaande beperkingen:
- Modellen voor automatische optimalisatie werken niet met de API voor het bepalen van batch.
- Feedback die nodig is om het model te maken, moet worden verzonden als een ervaringsgebeurtenis. Het mag niet automatisch worden verzonden in Journey Optimizer kanalen.
Terminologie terminology
De volgende termen zijn handig wanneer u het over automatisch optimaliseren hebt:
-
Meervoudig bewapende bandit: A meerbewapende bandit de optimalisatiebenadering maakt een balans op tussen verkennend leren en het benutten van dat leren.
-
Thomson sampling: Thompson sampling is een algoritme voor online beslissingsproblemen waarbij acties opeenvolgend worden genomen op een manier die evenwicht moet vinden tussen het exploiteren van wat bekend is om het maximaliseren van de directe prestaties en het investeren om nieuwe informatie te verzamelen die toekomstige prestaties kan verbeteren. Meer informatie
-
Beta-distributie: Set of continuous probability distributions defined on the interval [0, 1] parameterized by two positive shape parameters.
Thompson Sampling thompson-sampling
Het algoritme dat aan Auto-optimalisering ten grondslag ligt is Thompson sampling. In deze sectie bespreken we de intuïtie achter Thompson-steekproeven.
Thompson sampling, of Bayesiaanse bandieten, is een Bayesiaanse benadering van het multi-gewapende bandit probleem. Het basisidee is om de gemiddelde beloning van elk aanbod als een beloning te behandelen? willekeurige variabele en gebruik de gegevens die we tot nu toe hebben verzameld om ons " geloof " over de gemiddelde beloning bij te werken . Dit "geloof" wordt wiskundig weergegeven door een waarschijnlijkheidsverdeling achter de hand - in wezen een reeks waarden voor de gemiddelde beloning, samen met de plausibiliteit (of waarschijnlijkheid) die de beloning voor elke aanbieding heeft. Dan, voor elk besluit, zullen we monster een punt van elk van deze beloningsverdelingen achteraf en selecteer het bod waarvan de in de steekproef opgenomen beloning de hoogste waarde had.
Dit proces wordt geïllustreerd in onderstaande afbeelding, waar we drie verschillende aanbiedingen hebben. Aanvankelijk hebben we geen bewijs van de gegevens en we gaan ervan uit dat alle aanbiedingen een uniforme posterior-beloningspreiding hebben. We nemen een monster van de posterior beloningsdistributie van elk aanbod. Het voorbeeld dat u hebt geselecteerd bij de distributie van Aanbieding 2, heeft de hoogste waarde. Dit voorbeeld exploratie. Na het tonen van Aanbieding 2, verzamelen wij om het even welke potentiële beloning (bijvoorbeeld omzetting/geen-omzetting) en werken de posterior distributie van Aanbieding 2 bij gebruikend Bayes Theorem zoals hieronder verklaard. We zetten dit proces voort en werken de posterior distributies bij telkens wanneer een aanbieding wordt getoond en de beloning wordt geïnd. In het tweede cijfer, wordt Aanbieding 3 geselecteerd - hoewel Aanbieding 1 de hoogste gemiddelde beloning heeft (zijn posterior beloningsdistributie is het verst naar rechts), heeft het proces van bemonstering van elke distributie ertoe geleid dat wij een schijnbaar suboptimale Aanbieding 3 kozen. Daarmee geven we onszelf de kans om meer te leren over de werkelijke beloningsverdeling van Aanbieding 3.
Aangezien meer monsters worden verzameld, neemt het vertrouwen toe en wordt een nauwkeuriger schatting van de mogelijke beloning verkregen (die overeenkomt met een kleinere beloningsverdeling). Dit proces om onze overtuigingen bij te werken naarmate er meer bewijs beschikbaar komt, wordt bekend als Bayesiaanse gevolgtrekking.
Uiteindelijk, als één aanbieding (b.v. Aanbieding 1) een duidelijke winnaar is, zal zijn posterior beloningsdistributie van anderen worden gescheiden. Op dit moment zal de in de steekproef opgenomen beloning van aanbod 1 voor elk besluit waarschijnlijk de hoogste zijn, en we zullen er met een hogere waarschijnlijkheid voor kiezen. Dit is exploitatie - we zijn er sterk van overtuigd dat aanbod 1 het beste is, en daarom wordt gekozen om beloningen te maximaliseren.
Figuur 1: Voor elk besluit, nemen wij een punt van de posterior beloningsverdelingen. Het aanbod met de hoogste steekproefwaarde (omrekeningskoers) wordt gekozen. In de eerste fase hebben alle aanbiedingen een uniforme verdeling, omdat we geen enkel bewijs hebben over de omrekeningskoersen van de aanbiedingen uit de gegevens. Terwijl we meer monsters verzamelen, worden de posterior distributies smaller en nauwkeuriger. Uiteindelijk wordt het aanbod met de hoogste omrekeningskoers telkens gekozen.
Voor het berekenen/bijwerken van distributies gebruiken we Bayes Theorem. Voor elke aanbieding i, willen we hun P(??i | gegevens), d.w.z. voor elke aanbieding i, hoe waarschijnlijk een beloningswaarde is ??i is, gezien de gegevens die we tot nu toe voor dat aanbod hebben verzameld.
Van Bayes Theorem:
Posterior = Likeliability * Voorafgaand
De voorafgaande waarschijnlijkheid Dit is de eerste schatting van de waarschijnlijkheid om een uitvoer te produceren. De waarschijnlijkheid, nadat enig bewijs is verzameld, wordt bekend als achterste waarschijnlijkheid.
De auto-optimalisering wordt ontworpen om binaire beloningen (klik/geen-klik) te overwegen. In dit geval vertegenwoordigt de waarschijnlijkheid het aantal successen van N-proeven en wordt zij gemodelleerd door een Binomiale distributie. Voor sommige waarschijnlijkheidsfuncties, als u een bepaalde vroegere kiest, uiteindelijk is de achter-achter in de zelfde distributie zoals vroeger. Zo'n voordien wordt dan een voorafgaand samenvoegen. Dit soort van vroeger maakt de berekening van posterior distributie zeer eenvoudig. De Beta-distributie is een conjugaat voorafgaand aan de binomiale waarschijnlijkheid (binaire beloningen), en is zo een geschikte en verstandige keuze voor de voorafgaande en posterior kansverdelingen.De bètadistributie neemt twee parameters; α en β. Deze parameters kunnen worden beschouwd als het aantal successen en mislukkingen en de gemiddelde waarde die wordt gegeven door:
De functie van de Waarschijnlijkheid zoals wij hierboven verklaren wordt gemodelleerd door een Binomiale distributie, met s successes (omzettingen) en f mislukkingen (geen omzettingen) en q is a willekeurige variabele with a beta distribution.
De bovenstaande methode wordt gemodelleerd door bètadistributie en de posterior-distributie heeft de volgende vorm:
De waarde achteraf wordt berekend door het aantal successen en mislukkingen toe te voegen aan de bestaande parameters α, β.
Voor automatische optimalisatie, zoals in het bovenstaande voorbeeld wordt getoond, beginnen we met een eerdere distributie Bèta(1, 1) (uniforme distributie) voor alle aanbiedingen en na het krijgen van successen en van mislukkingen voor een bepaalde aanbieding, wordt de posterior een bètadistributie met parameters (s+α, f+β) voor dat aanbod.
Verwante onderwerpen:
Lees de volgende onderzoeksdocumenten voor een dieper inzicht in Thompson sampling:
Koudstartprobleem cold-start
Het probleem van de "koude start" doet zich voor wanneer een nieuwe aanbieding aan een campagne wordt toegevoegd en er geen gegevens beschikbaar zijn over de omrekeningskoers van de nieuwe aanbieding. In deze periode moeten we een strategie bedenken voor de vraag hoe vaak dit nieuwe aanbod wordt gekozen, zodat de prestatievermindering tot een minimum wordt beperkt, terwijl we informatie verzamelen over de omrekeningskoers van dit nieuwe aanbod. Er zijn meerdere oplossingen beschikbaar om dit probleem aan te pakken. De sleutel is om een evenwicht te vinden tussen de verkenning van dit nieuwe aanbod, terwijl we de exploitatie niet veel opofferen. Momenteel gebruiken we "uniforme distributie" als eerste schatting van de omrekeningskoers van de nieuwe aanbieding (voorafgaande distributie). In feite geven we alle conversiesnelheidswaarden dezelfde kans op voorkomen.
Figuur 2: Neem een campagne met 3 aanbiedingen. Terwijl de campagne live is, wordt aanbieding 4 toegevoegd aan de campagne. Aanvankelijk hebben we geen gegevens over de omrekeningskoers van aanbod 4 en moeten we het probleem van de koudstartprocedure aanpakken. We gebruiken uniforme distributie als onze eerste schatting van de omrekeningskoers van Aanbieding 4, terwijl we gegevens verzamelen voor dit nieuwe aanbod. Zoals uiteengezet in de Thompson sampling in de sectie waarin wordt aangegeven welke aanbieding aan een gebruiker wordt getoond, nemen we een monster van de achterwaartse beloningen van de aanbiedingen en selecteren we de aanbieding met de hoogste samplewaarde. In het bovenstaande voorbeeld wordt Aanbieding 4 gekozen en later op basis van de geïnde beloning, wordt de posterior-distributie van dit aanbod bijgewerkt zoals uiteengezet in het Thompson sampling sectie.
Liftmeting lift
"Lift"is metrisch die wordt gebruikt om de prestaties van om het even welke strategie te meten die in het rangschikken van de dienst, in vergelijking met basislijnstrategie wordt opgesteld (het dienen van aanbiedingen enkel willekeurig).
Bijvoorbeeld, als wij in het meten van de prestaties van een strategie van de Steekproef van Thompson (TS) die in het rangschikken van de dienst wordt gebruikt geinteresseerd, en KPI is omzettingspercentage (CVR), wordt de "lift"van de TS strategie tegen basislijnstrategie gedefinieerd als: