¿Qué es un árbol de decisión?
El objetivo de un árbol de decisión es desglosar todos los datos de visitas disponibles de los que puede aprender un sistema y luego agrupar esos datos, en los que las visitas dentro de cada grupo son lo más similares posible entre sí con respecto a la métrica de objetivo. Sin embargo, entre grupos, las visitas son lo más diferentes posible en cuanto a la métrica del objetivo (por ejemplo, tasa de conversión). El árbol de decisión tiene en cuenta las diferentes variables del conjunto de formación para determinar cómo dividir los datos de forma mutuamente exclusiva y colectivamente exhaustiva (MECE) en estos grupos (u "hojas") para maximizar este objetivo.
En un ejemplo sencillo, supongamos que hay dos variables de entrada:
- Sexo (con dos valores potenciales: hombre o mujer)
- Código postal (con cinco valores potenciales en el pequeño conjunto de datos: 11111, 22222, 33333, 44444 o 55555)
Si la métrica de objetivo es conversión, el árbol primero determinaría cuál de las dos variables explica la mayor cantidad de variación en la tasa de conversión de los datos de visita.
Pongamos que el código postal es más predictivo. Esta variable formaría la primera “rama” del árbol. A continuación, el árbol de decisión determinaría cómo dividir los datos de visitas, por ejemplo, que la tasa de conversión de los registros de cada división fuera lo más similar posible y la tasa de conversión entre divisiones fuera lo más diferente posible. En este ejemplo, supongamos que 11111, 22222, 33333 una división y 44444 y 55555 una segunda división.
Esta acción resulta en la primera capa del árbol de decisión:
El árbol de decisión plantea la pregunta: "¿Cuál es la variable más predictiva?" En este ejemplo, solo hay dos variables, por lo que la respuesta aquí es claramente de género. El árbol ahora busca completar un ejercicio similar para dividir los datos en cada rama. En primer lugar, consideraremos la rama 11111, 22222 y 33333. En estos códigos postales, si hay alguna diferencia de conversión entre hombres y mujeres, habrá dos hojas (hombres y mujeres) y esta rama estará completa. En las otras ramas, 44444 y 55555, supongamos que no hay ninguna diferencia estadística entre cómo se convierten las mujeres y los hombres. En este caso, la primera rama se convierte en la división final.
El ejemplo generaría el siguiente árbol:
¿Cómo utiliza el bosque aleatorio los árboles de decisión?
Los árboles de decisión pueden ser una herramienta estadística muy útil. Sin embargo, presenta algunas desventajas. La más importante es que se puede producir un sobreajuste de datos, con lo que un solo árbol difícilmente predeciría datos futuros que no se hubieran utilizado para crear el árbol inicial. En estadística, este problema se conoce como compensación sesgo-varianza. Los bosques aleatorios ayudan a superar este desafío excesivo. En su máximo nivel, un bosque aleatorio es un conjunto de árboles de decisión que se ha creado de un modo algo distinto a partir del mismo conjunto de datos que “vota” conjuntamente para producir un modelo mejor que un árbol individual. Los árboles se construyen mediante la selección aleatoria de un subconjunto de registros de visita con reemplazo (conocido como ensacado) y la selección aleatoria de un subconjunto de los atributos, de modo que el bosque consta de árboles de decisión ligeramente diferentes. Con este método se introducen pequeñas variaciones en los árboles que se crean en el bosque aleatorio. Al añadir esta cantidad controlada de varianza, la precisión predictiva del algoritmo mejora.
¿Cómo utilizan los algoritmos de personalización de Target el bosque aleatorio?
Cómo se crean los modelos
El diagrama siguiente resume cómo se crean los modelos para las actividades Auto-Target y Automated Personalization:
- Target recopila datos sobre los visitantes mientras sirve experiencias u ofertas de forma aleatoria
- Después de que Target alcance una masa crítica de datos, Target realiza ingeniería de características
- Target crea modelos de bosque aleatorio para cada experiencia u oferta
- Target comprueba si el modelo cumple una puntuación de calidad de umbral
- Target inserta el modelo en producción para personalizar el tráfico futuro
Target utiliza datos que recopila automáticamente, así como datos personalizados proporcionados por usted, para generar sus algoritmos de personalización. Estos modelos predicen la mejor experiencia u oferta para mostrar a los visitantes. Por lo general, se crea un modelo por experiencia (si hay una actividad Auto-Target) o por oferta (si hay una actividad Automated Personalization). Target muestra la experiencia u oferta que produce la métrica de éxito más alta prevista (por ejemplo, tasa de conversión). Estos modelos deben prepararse a partir de visitas ofrecidas aleatoriamente para que se puedan utilizar para la predicción. Como consecuencia, al iniciar una actividad, se muestran aleatoriamente experiencias u ofertas diferentes incluso a los visitantes que se encuentran en el grupo personalizado mientras los algoritmos de personalización no están listos.
Cada modelo debe validarse para garantizar que es bueno para predecir el comportamiento de los visitantes antes de que se utilice en la actividad. Los modelos se validan en función de su área bajo la curva (AUC). Debido a la necesidad de validación, el momento exacto en el que un modelo empieza a ofrecer experiencias personalizadas depende de los detalles de los datos. En la práctica, y para la planificación del tráfico, normalmente se requiere más de un número mínimo de conversiones para que cada modelo sea válido.
Cuando un modelo es válido para una experiencia u oferta, el icono de reloj situado a la izquierda del nombre de la experiencia/oferta se convierte en una casilla de verificación verde. Cuando hay modelos válidos para al menos dos experiencias u ofertas, algunas visitas comienzan a personalizarse.