Wat is een beslissingsboom?
Het doel van een beslissingsboom is alle beschikbare bezoekgegevens te verdelen een systeem van kan leren en dan dat gegevens groeperen, waarin de bezoeken binnen elke groep zo gelijkaardig mogelijk aan elkaar met betrekking tot het doel metrisch zijn. Over groepen heen zijn de bezoeken echter zo verschillend mogelijk wat betreft de maatstaf van het doel (bijvoorbeeld de omrekeningskoers). In de beslissingsstructuur wordt gekeken naar de verschillende variabelen in de trainingsreeks om te bepalen hoe de gegevens op een MECE-manier (Mutual Exclusive Collective Exhaustive) in deze groepen (of "bladeren") worden gesplitst om dit doel te bereiken.
In een eenvoudig voorbeeld, veronderstellen wij twee inputvariabelen:
- Geslacht (met twee potentiële waarden, mannen of vrouwen)
- Postcode (met vijf mogelijke waarden in de kleine gegevensset: 11111, 2222, 3333, 44444 of 5555)
Als doel metrisch omzetting is, dan zou de boom eerst bepalen welke van de twee variabelen de grootste hoeveelheid variatie in de de omzettingssnelheid van bezoekgegevens verklaart.
ZIP-code is het meest voorspellend. Deze variabele zou dan de eerste "tak"van de boom vormen. De beslissingsstructuur zou vervolgens bepalen hoe de bezoekgegevens moeten worden gesplitst, zoals de omrekeningskoers van de records in elke splitsing zo vergelijkbaar mogelijk was, en de omrekeningskoers tussen de splitsingen zo verschillend mogelijk. In dit voorbeeld wordt ervan uitgegaan dat 11111, 2222, 33333 één splitsing zijn en dat 44444 en 55555 een tweede splitsing.
Deze actie resulteert in de eerste laag van de beslissingsboom:
De beslissingsboom stelt de vraag: "Wat is de meest voorspellende variabele?" In dit voorbeeld zijn er slechts twee variabelen, dus het antwoord hier is duidelijk gender. De structuur probeert nu een vergelijkbare bewerking uit te voeren om de gegevens te splitsen binnen elke tak. Laten we eerst eens kijken naar de vertakking 1111, 2222 en 33333. In deze postcodes, als er een verschil is in conversie tussen mannen en vrouwen, dan zouden er twee bladeren (mannen en vrouwen) zijn, en deze tak zou compleet zijn. In de andere takken, 44444 en 55555, gaan we ervan uit dat er geen statistisch verschil is tussen de manier waarop vrouwen en mannen zich omzetten. In dit geval wordt de eerste vertakking de laatste splitsing.
Het voorbeeld resulteert in de volgende boomstructuur:
Hoe worden beslissingsbomen gebruikt door Random Forest?
Beslissingsbomen kunnen een krachtig statistisch instrument zijn. Ze hebben echter enkele nadelen. Het meest kritiek, kunnen zij de gegevens "overdreven-passen"zodat een individuele boom slecht toekomstige gegevens voorspelt die niet werden gebruikt om de aanvankelijke boom te bouwen. Deze uitdaging wordt de afwijking afwijking in het statistisch leren. Willekeurige bossen helpen deze overdreven passende uitdaging het hoofd te bieden. Op het hoogste niveau is een willekeurig bos een verzameling beslissingsbomen die iets anders worden gebouwd op dezelfde gegevensset die samen "stemmen" om een beter model te krijgen dan een individuele boom. De bomen worden gebouwd door willekeurig een subset van bezoeken te selecteren met vervangingen (bekend als bagging) en willekeurig een subset van de kenmerken te selecteren, zodat het bos uit iets verschillende beslissingsbomen bestaat. Deze methode introduceert kleine variaties in de bomen die in het Willekeurige Bos worden gecreeerd. Door deze gecontroleerde hoeveelheid variantie toe te voegen, verbetert u de voorspellende nauwkeurigheid van het algoritme.
Hoe kan het Target personalisatiealgoritmen gebruiken Random Forest?
Hoe modellen worden gebouwd
Het volgende diagram vat samen hoe de modellen voor worden gebouwd Auto-Target en Automated Personalization activiteiten:
- Het doel verzamelt gegevens over bezoekers terwijl willekeurig het dienen ervaringen of aanbiedingen
- Na Target een kritische massa van gegevens bereikt, Target functionaliteit uitvoeren
- Target bouwt Willekeurige modellen van de Bos voor elke ervaring of aanbieding
- Target controleert of het model voldoet aan een drempelkwaliteitsscore
- Target duwt het model aan productie om toekomstig verkeer te personaliseren
Target gebruikt automatisch gegevens die het verzamelt, en douanegegevens die door u worden verstrekt, om zijn verpersoonlijkingsalgoritmen te bouwen. Deze modellen voorspellen de beste ervaring of de beste aanbieding aan bezoekers te tonen. Over het algemeen wordt één model per ervaring samengesteld (als een Auto-Target activiteit) of per aanbieding (als een Automated Personalization activiteit). Target geeft vervolgens de ervaring of het aanbod weer die de hoogst voorspelde succesmaatstaf oplevert (bijvoorbeeld de omrekeningskoers). Deze modellen moeten worden opgeleid bij willekeurig bezochte bezoeken voordat ze kunnen worden gebruikt voor voorspellingen. Als een activiteit voor het eerst begint, worden zelfs bezoekers die deel uitmaken van de gepersonaliseerde groep willekeurig verschillende ervaringen of aanbiedingen getoond totdat de verpersoonlijkingsalgoritmen klaar zijn.
Elk model moet worden gevalideerd om te kunnen bepalen of het goed is in het voorspellen van het gedrag van bezoekers voordat het in uw activiteit wordt gebruikt. Modellen worden gevalideerd op basis van het gebied onder de curve (AUC). Wegens de behoefte aan bevestiging, hangt het nauwkeurige tijdstip wanneer een model begint te dienen gepersonaliseerde ervaringen van de details van de gegevens af. In de praktijk, en voor verkeer planningsdoeleinden, neemt het gewoonlijk meer dan het minimumaantal omzettingen alvorens elk model geldig is.
Wanneer een model geldig wordt voor een ervaring of een aanbieding, verandert het klokpictogram links van ervaring/aanbiedingsnaam in groen checkbox. Wanneer er geldige modellen voor minstens twee ervaringen of aanbiedingen zijn, beginnen sommige bezoeken gepersonaliseerd te worden.