En savoir plus sur le Data Workbench Annonce de fin de vie.
Les calculs statistiques pour le score de propension sont définis.
Conceptuellement, le score calculé pour chaque visiteur est une probabilité estimée que l’événement spécifié (défini par le filtre cible) se produise, ce qui se traduit par une plage de valeurs de score comprise entre 0 et 100 %. La procédure de notation utilise des exemples existants comme données de formation pour trouver la relation entre la probabilité d’événement et les variables d’intérêt indépendantes sélectionnées.
Mathématiquement, ces relations se reflètent dans chaque valeur quantitative associée à chaque variable indépendante. Ces valeurs sont appelées des coefficients de modèle. ScoreDim utilise actuellement l’algorithme des moindres carrés (IRLS), sous forme itérative, pour estimer les coefficients du modèle. IRLS passe en revue les échantillons plusieurs fois jusqu’à ce que la différence de coefficient entre le passage actuel et le passage précédent soit inférieure à 1,0e-6, ce qui l’appelle convergé. Cependant, selon les données, l'IRLS peut ne pas parvenir à la convergence.
Dans ce cas, l’itération de formation du modèle se termine lorsque
Si l’IRLS ne converge pas, un algorithme de sauvegarde appelé Déformation du dégradé stochastique (SGD) est utilisé. Le SGD va également passer plusieurs fois en revue les échantillons d'entraînement. Mais contrairement à IRLS, les coefficients du modèle SGD sont contrôlés de sorte que la différence entre les itérations diminuera toujours de manière exponentielle. De même, la SGD prendra fin lorsque la différence de coefficient sera inférieure à 1,0e-6 ou 100 000 passes ont été atteintes. L'échec de l'IRLS et l'engagement de la SGD seront enregistrés dans le log de trace.
Pour les deux algorithmes, tous les exemples n’entrent pas dans la formation de modèle. 80 % sont actuellement utilisés pour entraîner le modèle. Une fois le modèle formé, les 20 % restants seront utilisés pour évaluer la force du modèle en termes de précision, de rappel et de précision, calculés à partir de la matrice de confusion. Plus près de 100 %, plus le modèle de notation est efficace.