Hash-botsingen
Dimensies in Adobe Analytics verzamelen tekenreekswaarden. Soms zijn deze tekenreeksen honderden tekens lang, terwijl andere tekens kort zijn. Om de prestaties te verbeteren, worden deze tekenreekswaarden niet direct in verwerking gebruikt. In plaats daarvan wordt voor elke waarde een hash berekend om alle waarden tot een uniforme grootte te maken. Alle rapporten lopen op deze gehakte waarden, die drastisch hun prestaties verhogen.
Voor de meeste velden wordt de tekenreeks eerst omgezet in kleine letters. Bij omzetting in kleine letters wordt het aantal unieke waarden verminderd. De waarden worden maandelijks gehasht - het geval voor een bepaalde waarde gebruikt de eerste waarde die elke maand wordt gezien. Van maand tot maand, is er een kleine mogelijkheid dat twee unieke veranderlijke waarden aan de zelfde waarde hakken. Dit concept is gekend als botsing van de a hash.
De botsingen van de as kunnen in rapporten als volgt manifesteren:
- Als u een rapport in tijd bekijkt en een onverwachte punt ziet, is het mogelijk dat de veelvoudige unieke waarden voor die variabele de zelfde knoeiboel gebruiken.
- Als u een segment gebruikt en een onverwachte waarde ziet, is het mogelijk dat het onverwachte afmetingspunt de zelfde knoeiboel gebruikt zoals een ander afmetingspunt dat uw segment aanpaste.
Oneven van een hashbotsing
Adobe Analytics gebruikt hashes met 32 bits voor de meeste afmetingen, zo betekent het dat er 2 32 mogelijke knoeiboelcombinaties (ongeveer 4.3 miljard) zijn. Elke maand wordt een nieuwe hash-tabel voor elke dimensie gemaakt. De benaderende kansen om een knoeiboelbotsing te ontmoeten die op het aantal unieke waarden wordt gebaseerd zijn als volgt. Deze kansen zijn gebaseerd op één enkele dimensie voor één enkele maand.
Gelijkaardig aan de verjaardagsparadox, neemt de waarschijnlijkheid van knoeiboelbotsingen drastisch toe aangezien het aantal unieke waarden stijgt. Bij 1 miljoen unieke waarden, is het waarschijnlijk dat er minstens 100 knoeiboelbotsingen voor die dimensie zijn.
Hashbotsingen verminderen
De meeste hash-botsingen gebeuren met twee ongebruikelijke waarden, die geen betekenisvolle invloed hebben op rapporten. Zelfs als een hash een algemene en soms voorkomende waarde heeft, is het resultaat te verwaarlozen. In zeldzame gevallen waarin twee populaire waarden een hash-botsing ervaren, is het echter mogelijk het effect ervan duidelijk te zien. Adobe raadt het volgende aan om het effect ervan in rapporten te beperken:
- verander de datumwaaier: De lijsten van de knoeiboel veranderen elke maand. Als u het datumbereik wijzigt in een tijdsbereik van een andere maand, kan elke waarde verschillende hashes hebben die niet botsen.
- Verlaag het aantal unieke waarden: U kunt uw implementatie aanpassen of de regels van de Verwerkinggebruiken helpen het aantal unieke waarden verminderen die een dimensie verzamelt. Als uw dimensie bijvoorbeeld een URL verzamelt, kunt u querytekenreeksen of -protocol verwijderen.