Extension SQL d’ingénierie de fonctionnalités
Pour répondre à vos besoins d’ingénierie des fonctionnalités, utilisez l’extension de transformateur SQL afin de simplifier et d’automatiser le prétraitement de vos données. Utilisez cette extension pour créer des fonctionnalités et profiter d’une expérimentation transparente avec différentes techniques d’ingénierie des fonctionnalités, y compris en les associant à des modèles. Conçu pour l’informatique distribuée, vous pouvez réaliser l’ingénierie de fonctionnalités sur de grands jeux de données de manière parallèle et évolutive, ce qui réduit considérablement le temps nécessaire au prétraitement des données avec l’extension SQL d’ingénierie de fonctionnalités de Distiller de données.
Présentation de la technique technique-overview
Les fonctionnalités d’ingénierie des fonctionnalités couvrent trois domaines principaux : extraction de fonctionnalités, transformation de fonctionnalités et sélection de fonctionnalités. Chaque zone comprend des fonctions spécifiques conçues pour extraire, convertir, cibler et améliorer votre prétraitement des données.
Extraction des fonctionnalités feature-extraction
Extrayez des informations pertinentes à partir de vos données, en particulier des données textuelles, et convertissez-les dans un format numérique que les modèles pris en charge peuvent utiliser ou transformer et dériver des jeux de données. Utilisez les fonctions suivantes pour effectuer l’extraction de fonctionnalités :
- Transformateur textuel : permet de convertir des données textuelles en fonctions numériques.
- Vectoriseur de nombre : transforme une collection de documents texte en vecteurs de nombre de jetons.
- N-gramme : Génère des séquences de n-grammes à partir de données texte.
- Suppression de mots vides : filtrez les mots courants qui n’ont pas de signification significative.
- TF-IDF : mesure l'importance des mots dans un document par rapport à un corpus.
- Tokenizer : ventiler le texte en termes individuels (mots).
- Word2Vec : mappez des mots à des vecteurs de taille fixe et créez des incorporations de mots.
Transformation de caractéristiques feature-transformation
En plus d’extraire des fonctionnalités, utilisez les transformateurs généraux suivants pour préparer vos fonctionnalités aux modèles statistiques avancés et aux jeux de données dérivés. Appliquez une mise à l’échelle, une normalisation ou un codage pour vous assurer que vos fonctionnalités sont à la même échelle et ont une distribution similaire.
Transformateurs généraux
Vous trouverez ci-dessous une liste d’outils permettant de traiter un large éventail de types de données afin d’améliorer votre workflow de prétraitement des données.
- Imputation numérique : remplissez les valeurs manquantes dans les colonnes numériques avec une valeur spécifiée, telle que la moyenne ou la médiane.
- Imputeur de chaîne : remplacez les valeurs de chaîne manquantes par une valeur spécifiée, par exemple la chaîne la plus fréquente dans la colonne .
- Vector Assembler : combinez plusieurs colonnes en une seule colonne vectorielle pour préparer les données pour les modèles de machine learning.
- Ordinateur booléen : remplissez les valeurs booléennes manquantes avec une valeur spécifiée, par exemple
trueoufalse.
Transformateurs numériques
Appliquez ces techniques pour traiter et mettre à l’échelle efficacement les données numériques afin d’améliorer les performances du modèle.
- Binarizer : permet de convertir des fonctions continues en valeurs binaires en fonction d’un seuil.
- Compartimenteur : mappez les fonctionnalités continues dans des compartiments discrets.
- Min-Max Scaler : redimensionnez les fonctionnalités dans une plage spécifiée, généralement [0, 1].
- Max Abs Scaler : redimensionnez les fonctions dans la plage [-1, 1] sans modifier la dispersion.
- Normaliseur : permet de normaliser les vecteurs pour obtenir une norme unitaire.
- Quantile Discretizer : convertissez les fonctions continues en fonctions catégorielles en les classant en quantités.
- Standard Scaler : normalisez les caractéristiques pour avoir un écart type unitaire et/ou une moyenne nulle.
Transformateurs catégoriels
Utilisez ces transformateurs pour convertir et coder des données catégorielles dans des formats adaptés aux modèles de machine learning.
- Indexeur de chaîne : convertissez des données de chaîne catégorielles en index numériques.
- Un encodeur à chaud : mappe les données catégorielles en vecteurs binaires.
Sélection de fonctionnalités feature-selection
Ensuite, concentrez-vous sur la sélection d’un sous-ensemble des fonctionnalités les plus importantes de la visionneuse d’origine. Ce processus permet de réduire les dimensions de vos données, ce qui facilite le traitement de vos modèles et améliore les performances globales du modèle.
Mise en œuvre de la clause OPTIONS options-clause
Lorsque vous définissez votre modèle, utilisez la clause OPTIONS pour spécifier l’algorithme et ses paramètres. Commencez par définir le paramètre type pour indiquer l’algorithme que vous utilisez, par exemple K-Means. Définissez ensuite les paramètres pertinents de la clause OPTIONS en tant que paires clé-valeur pour affiner votre modèle. Si vous choisissez de ne pas personnaliser certains paramètres, le système applique les paramètres par défaut. Reportez-vous à la documentation pertinente pour comprendre la fonction et les valeurs par défaut de chaque paramètre.
Étapes suivantes
Après avoir appris les techniques d’ingénierie des fonctionnalités décrites dans ce document, passez au document Modèles. Il vous guide tout au long du processus de création, de formation et de gestion de modèles approuvés à l’aide des fonctionnalités que vous avez conçues. Une fois vos modèles créés, passez au document Implémenter des modèles statistiques avancés .. Ce document offre un aperçu et fournit des liens vers des guides détaillés relatifs à différentes techniques de modélisation, notamment la mise en grappe, la classification et la régression. En suivant ces documents, vous apprendrez à configurer et à implémenter divers modèles approuvés dans vos workflows SQL et à optimiser vos modèles pour une analyse de données avancée.