Estensione SQL per ingegneria delle funzioni
Per soddisfare le esigenze tecniche, utilizza l’estensione SQL Transformer per semplificare e automatizzare la preelaborazione dei dati. Utilizza questa estensione per creare funzionalità e usufruire di una sperimentazione perfetta con diverse tecniche di ingegneria delle funzionalità, inclusa l’associazione con i modelli. Progettato per l'elaborazione distribuita, è possibile eseguire la progettazione di funzionalità su set di dati di grandi dimensioni in modo parallelo e scalabile, riducendo in modo significativo il tempo necessario per la preelaborazione dei dati con l'estensione SQL per la progettazione di funzionalità di Data Distiller.
Panoramica tecnica technique-overview
Le funzionalità di ingegneria delle feature coprono tre aree principali: Estrazione feature (Feature Extraction), Trasformazione feature (Feature Transformation) e Selezione feature (Feature Selection). Ogni area include funzioni specifiche progettate per estrarre, convertire, mettere a fuoco e migliorare la preelaborazione dei dati.
Estrazione delle funzioni feature-extraction
Estrai informazioni rilevanti dai dati, in particolare dati di testo, e convertili in un formato numerico che i modelli supportati possono utilizzare o trasformare e derivare set di dati. Utilizzate le seguenti funzioni per eseguire l'estrazione delle feature:
- Trasformatore testuale: converte i dati testuali in funzioni numeriche.
- Vectorizer conteggio: trasforma una raccolta di documenti di testo in vettori di conteggi di token.
- N-grammi: genera sequenze di n-grammi dai dati di testo.
- Rimozione parole non consentite: escludere le parole comuni che non hanno un significato significativo.
- TF-IDF: misura l'importanza delle parole in un documento rispetto a un corpus.
- Tokenizer: suddividi il testo in singoli termini (parole).
- Word2Vec: mappa le parole su vettori a dimensione fissa e crea incorporamenti di parole.
Trasformazione delle feature feature-transformation
Oltre alle feature di estrazione, utilizzate i trasformatori generali riportati di seguito per preparare le feature per modelli statistici avanzati e set di dati derivati. Applica il ridimensionamento, la normalizzazione o la codifica per garantire che le funzioni abbiano la stessa scala e una distribuzione simile.
Trasformatori generici
Di seguito è riportato un elenco di strumenti per l’elaborazione di un’ampia gamma di tipi di dati al fine di migliorare il flusso di lavoro di preelaborazione dei dati.
- Imputer numerico: riempie i valori mancanti nelle colonne numeriche con un valore specificato, ad esempio la media o la mediana.
- Input stringa: sostituire i valori stringa mancanti con un valore specificato, ad esempio la stringa più frequente nella colonna.
- Assemblatore vettoriale: combina più colonne in un'unica colonna vettoriale per preparare i dati per i modelli di apprendimento automatico.
- Imputer booleano: compilare i valori booleani mancanti con un valore specificato, ad esempio
true
ofalse
.
Trasformatori numerici
Applicate queste tecniche per elaborare e scalare in modo efficace i dati numerici per migliorare le prestazioni del modello.
- Binarizer: converte le funzionalità continue in valori binari basati su una soglia.
- Bucketizer: mappa le funzioni continue in bucket discreti.
- Scaler min-max: ridimensionare le funzionalità a un intervallo specificato, in genere [0, 1].
- Max Abs Scaler: ridimensiona le funzioni all'intervallo [-1, 1] senza modificare la sparsità.
- Normalizer: normalizza i vettori in modo che abbiano una norma unitaria.
- Discretizzatore quantile: converte le funzionalità continue in funzionalità categoriche associandole a quantili.
- Scala standard: normalizza le funzionalità in modo che abbiano una deviazione standard unitaria e/o una media pari a zero.
Trasformatori categorici
Utilizza questi trasformatori per convertire e codificare i dati delle categorie in formati adatti ai modelli di apprendimento automatico.
- Indicizzatore stringa: converte dati stringa categorici in indici numerici.
- Un Hot Encoder: mappa dati categorici in vettori binari.
Selezione di funzioni feature-selection
Quindi, focalizzate la selezione di un sottoinsieme delle feature più importanti dal set originale. Questo processo consente di ridurre la dimensionalità dei dati, semplificando l’elaborazione dei modelli e migliorando le prestazioni complessive del modello.
Implementare la clausola OPTIONS options-clause
Quando si definisce il modello, utilizzare la clausola OPTIONS
per specificare l'algoritmo e i relativi parametri. Iniziare impostando il parametro type
per indicare l'algoritmo in uso, ad esempio K-Means
. Definire quindi i parametri rilevanti nella clausola OPTIONS
come coppie chiave-valore per ottimizzare il modello. Se si sceglie di non personalizzare determinati parametri, il sistema applica le impostazioni predefinite. Consulta la documentazione pertinente per informazioni sulla funzione di ciascun parametro e sui valori predefiniti.
Passaggi successivi
Dopo aver appreso le tecniche di ingegneria delle funzionalità descritte in questo documento, passare al documento Modelli. Ti guida attraverso il processo di creazione, formazione e gestione di modelli affidabili utilizzando le funzioni che hai progettato. Una volta generati i modelli, passare al documento Implementare modelli statistici avanzati.. Questo documento offre una panoramica e collegamenti a guide approfondite per diverse tecniche di modellazione, tra cui clustering, classificazione e regressione. Seguendo questi documenti, imparerai a configurare e implementare vari modelli affidabili all’interno dei flussi di lavoro SQL e a ottimizzare i modelli per l’analisi avanzata dei dati.