Conflictos de hash

Las dimensiones en Adobe Analytics recopilan valores de cadena. A veces estas cadenas tienen cientos de caracteres, mientras que otras veces son cortas. Para mejorar el rendimiento, estos valores de cadena no se utilizan directamente en el procesamiento de intervalo de tiempo. En su lugar, se calcula un hash para cada valor, lo que produce un identificador de tamaño uniforme. Para la mayoría de los campos, el valor se convierte a minúsculas antes del hash, lo que reduce el número total de valores únicos. Todos los informes se ejecutan en estos valores con hash, lo que aumenta drásticamente su rendimiento.

Adobe Analytics mantiene una tabla hash independiente para cada variable y cada tabla se vuelve a crear cada mes. Dentro de cualquiera de esas tablas, dos valores de origen diferentes pueden producir ocasionalmente el mismo hash, conocido como conflicto de hash.

Los conflictos de hash pueden manifestarse en los informes de la siguiente manera:

  • Si ve un informe a lo largo del tiempo y observa un pico inesperado, es posible que varios valores únicos para esa variable utilicen el mismo hash.
  • Si utiliza un segmento y ve un valor inesperado, es posible que el elemento de dimensión inesperado utilice el mismo hash que otro elemento de dimensión que coincidió con el segmento.

Probabilidades de un conflicto de hash

Adobe Analytics usa hashes de 32 bits para la mayoría de las dimensiones, lo que significa que hay 232 combinaciones de hash posibles (aproximadamente 4.300 millones). Las probabilidades aproximadas de encontrar un conflicto de hash basado en el número de valores únicos son las siguientes. Estas probabilidades se basan en una sola dimensión para un solo mes.

Valores únicos
Probabilidades
1.000
0.01%
10.000
1%
50 000
26%
100.000
71%

Similar a la paradoja del cumpleaños, la probabilidad de que se produzcan conflictos de hash aumenta drásticamente a medida que aumenta el número de valores únicos. Con un millón de valores únicos, es probable que haya al menos 100 conflictos de hash para esa dimensión.

Mitigación de conflictos de hash

Los conflictos de hash no se pueden eliminar por completo, pero su impacto en los informes se puede mitigar. La mayoría de los conflictos de hash se producen con dos valores poco comunes, que no tienen un impacto significativo en los informes. Incluso si un hash entra en conflicto con un valor común y poco común, el resultado es insignificante. Sin embargo, en casos excepcionales en los que dos valores populares experimentan un conflicto de hash, es posible ver su efecto con claridad. Adobe recomienda lo siguiente para reducir su efecto en los informes:

  • Cambiar el intervalo de fechas: Las tablas hash cambian cada mes. Si se cambia el intervalo de fechas para que abarque otro mes, se pueden dar a cada valor hashes diferentes que no entren en conflicto. Suele ser la forma más rápida de borrar una anomalía visible de un informe específico.
  • Reduzca la cantidad de valores únicos: Puede ajustar la implementación o usar Reglas de procesamiento para ayudar a reducir la cantidad de valores únicos que recopila una dimensión. Por ejemplo, si la dimensión recopila una dirección URL, puede eliminar las cadenas de consulta o el protocolo.
  • Usar Data Warehouse o fuentes de datos: estas herramientas no dependen de las tablas hash.
  • Mover a Customer Journey Analytics: Customer Journey Analytics no tiene capa de hash y no tiene límites de cardinalidad en las dimensiones. Considere pasar a este producto si los conflictos de hash o Poco tráfico afectan con frecuencia sus informes.
recommendation-more-help
analytics-help-implement