Possibilità di una collisione hash

Adobe Analytics utilizza hash a 32 bit per la maggior parte delle dimensioni, il che significa che ci sono 232 possibili combinazioni di hash (circa 4,3 miliardi). Ogni mese viene creata una nuova tabella hash per ogni dimensione. Le probabilità approssimative di incontrare una collisione hash in base al numero di valori univoci sono le seguenti. Queste probabilità si basano su una singola dimensione per un singolo mese.

Valori univociOdds
1.0000,01%
10.0001%
50.00026%
100.00071%

Simile al paradosso del compleanno, la probabilità di conflitti di hash aumenta drasticamente con l'aumentare del numero di valori univoci. Con 1 milione di valori univoci, è probabile che ci siano almeno 100 conflitti di hash per quella dimensione.

Mitigazione delle collisioni hash

La maggior parte delle collisioni hash si verifica con due valori non comuni, che non hanno alcun impatto significativo sui rapporti. Anche se un hash si scontra con un valore comune e non comune, il risultato è trascurabile. Tuttavia, in rari casi in cui due valori popolari sperimentano una collisione hash, è possibile vedere chiaramente il suo effetto. L’Adobe consiglia di ridurre l’effetto nei rapporti come segue:

  • Modifica l'intervallo di date: le tabelle hash cambiano ogni mese. Se si modifica l’intervallo di date in modo che si estenda su un altro mese, a ogni valore possono essere assegnati hash diversi che non si scontrano.
  • Riduci il numero di valori univoci: puoi regolare l'implementazione o utilizzare Regole di elaborazione per ridurre il numero di valori univoci raccolti da una dimensione. Ad esempio, se la dimensione raccoglie un URL, puoi rimuovere stringhe di query o protocollo.
recommendation-more-help