Extension SQL d’ingénierie de fonctionnalités
Pour répondre à vos besoins en matière d’ingénierie de fonctionnalités, utilisez l’extension du transformateur SQL afin de simplifier et d’automatiser le prétraitement des données. Utilisez cette extension pour créer des fonctionnalités et profiter d’une expérience transparente avec différentes techniques d’ingénierie de fonctionnalités, y compris en les associant à des modèles. Conçu pour un calcul distribué, vous pouvez concevoir des fonctionnalités sur des jeux de données volumineux de manière parallèle et évolutive, ce qui réduit considérablement le temps nécessaire au prétraitement des données à l’aide de l’extension SQL de conception des fonctionnalités de Data Distiller.
Présentation des techniques technique-overview
Les fonctionnalités de conception des fonctionnalités couvrent trois principaux domaines : l’extraction des fonctionnalités, la transformation des fonctionnalités et la sélection des fonctionnalités. Chaque zone comprend des fonctions spécifiques conçues pour extraire, convertir, cibler et améliorer le prétraitement des données.
Extraction de fonctionnalités feature-extraction
Extrayez des informations pertinentes de vos données, en particulier des données texte, et convertissez-les dans un format numérique que les modèles pris en charge peuvent utiliser ou transformer et dériver des jeux de données. Utilisez les fonctions suivantes pour effectuer l’extraction de fonctionnalités :
- Transformateur textuel : convertissez les données textuelles en fonctions numériques.
- Count Vectorizer : transformez une collection de documents texte en vecteurs de nombre de jetons.
- N-gram : génère des séquences d’n-grammes à partir de données textuelles.
- Stop Words Remover : permet de filtrer les mots courants qui n’ont pas de signification significative.
- TF-IDF : mesurez l'importance des mots dans un document par rapport à un corpus.
- Tokenizer : ventilez le texte en termes individuels (mots).
- Word2Vec : mappez des mots à des vecteurs de taille fixe et créez des incorporations de mots.
Transformation des fonctionnalités feature-transformation
Outre l’extraction de fonctionnalités, utilisez les transformateurs généraux suivants pour préparer vos fonctionnalités aux modèles statistiques avancés et aux jeux de données dérivés. Appliquez une mise à l’échelle, une normalisation ou un codage pour vous assurer que vos fonctionnalités sont à la même échelle et ont une distribution similaire.
Transformateurs généraux
Vous trouverez ci-dessous une liste d’outils permettant de traiter un large éventail de types de données afin d’améliorer votre workflow de prétraitement des données.
- Ordinateur numérique : renseignez les valeurs manquantes dans les colonnes numériques avec une valeur spécifiée, comme la moyenne ou la médiane.
- Outil de chaîne : remplacez les valeurs de chaîne manquantes par une valeur spécifiée, telle la chaîne la plus fréquente de la colonne.
- Assembler vectoriel : Combinez plusieurs colonnes dans une seule colonne vectorielle pour préparer les données pour les modèles d’apprentissage automatique.
- Ordinateur booléen : remplissez les valeurs booléennes manquantes avec une valeur spécifiée, telle que
true
oufalse
.
Transformeurs numériques
Appliquez ces techniques pour traiter et mettre à l’échelle efficacement les données numériques afin d’améliorer les performances des modèles.
- Binarizer : convertissez les fonctionnalités continues en valeurs binaires basées sur un seuil.
- Bucketizer : Mappez les fonctionnalités continues dans des compartiments discrets.
- Min-Max Scaler : redimensionner les fonctionnalités sur une plage spécifiée, généralement [0, 1].
- Max Abs Scaler : redimensionner les fonctionnalités à la plage [-1, 1] sans modifier la dispersion.
- Normalizer : normalisez les vecteurs pour qu’ils aient la norme unitaire.
- Quantile Discrétizer : convertissez les fonctionnalités continues en fonctionnalités catégoriques en les regroupant en quantiles.
- Évolutif standard : normalisez les fonctionnalités pour obtenir une écart-type unitaire et/ou une moyenne nulle.
Transformateurs catégoriels
Utilisez ces transformateurs pour convertir et coder des données catégoriques dans des formats adaptés aux modèles d’apprentissage automatique.
- Index de chaîne : convertissez les données de chaîne catégorielles en index numériques.
- One Hot Encoder : mappez des données catégoriques en vecteurs binaires.
Sélection de fonctionnalités feature-selection
Ensuite, concentrez-vous sur la sélection d’un sous-ensemble des fonctionnalités les plus importantes de l’ensemble d’origine. Ce processus permet de réduire les dimensions de vos données, ce qui facilite le traitement de vos modèles et améliore les performances globales du modèle.
Mise en oeuvre de la clause OPTIONS options-clause
Lorsque vous définissez votre modèle, utilisez la clause OPTIONS
pour spécifier l’algorithme et ses paramètres. Commencez par définir le paramètre type
pour indiquer l’algorithme que vous utilisez, par exemple K-Means
. Définissez ensuite les paramètres appropriés dans la clause OPTIONS
en tant que paires clé-valeur pour affiner votre modèle. Si vous choisissez de ne pas personnaliser certains paramètres, le système applique les paramètres par défaut. Reportez-vous à la documentation appropriée pour comprendre la fonction et les valeurs par défaut de chaque paramètre.
Étapes suivantes
Après avoir appris les techniques d’ingénierie de fonctionnalités décrites dans ce document, accédez au document Modèles. Il vous guide tout au long du processus de création, de formation et de gestion des modèles de confiance à l’aide des fonctionnalités que vous avez conçues. Une fois vos modèles créés, passez au document Mise en oeuvre de modèles statistiques avancés.. Ce document sert d’aperçu, en liant à des guides détaillés pour différentes techniques de modélisation, y compris la mise en grappe, la classification et la régression. En suivant ces documents, vous apprenez à configurer et à mettre en oeuvre différents modèles approuvés dans vos workflows SQL et à optimiser vos modèles pour une analyse avancée des données.