Estensione SQL per ingegneria delle funzioni

AVAILABILITY
Questa funzionalità è disponibile per i clienti che hanno acquistato il componente aggiuntivo Data Distiller. Per ulteriori informazioni, contatta il tuo rappresentante Adobe.

Per soddisfare le esigenze tecniche, utilizza l’estensione SQL Transformer per semplificare e automatizzare la preelaborazione dei dati. Utilizza questa estensione per creare funzionalità e usufruire di una sperimentazione perfetta con diverse tecniche di ingegneria delle funzionalità, inclusa l’associazione con i modelli. Progettato per l'elaborazione distribuita, è possibile eseguire la progettazione di funzionalità su set di dati di grandi dimensioni in modo parallelo e scalabile, riducendo in modo significativo il tempo necessario per la preelaborazione dei dati con l'estensione SQL per la progettazione di funzionalità di Data Distiller.

Panoramica tecnica technique-overview

Le funzionalità di ingegneria delle feature coprono tre aree principali: Estrazione feature (Feature Extraction), Trasformazione feature (Feature Transformation) e Selezione feature (Feature Selection). Ogni area include funzioni specifiche progettate per estrarre, convertire, mettere a fuoco e migliorare la preelaborazione dei dati.

Estrazione delle funzioni feature-extraction

Estrai informazioni rilevanti dai dati, in particolare dati di testo, e convertili in un formato numerico che i modelli supportati possono utilizzare o trasformare e derivare set di dati. Utilizzate le seguenti funzioni per eseguire l'estrazione delle feature:

  • Trasformatore testuale: converte i dati testuali in funzioni numeriche.
  • Vectorizer conteggio: trasforma una raccolta di documenti di testo in vettori di conteggi di token.
  • N-grammi: genera sequenze di n-grammi dai dati di testo.
  • Rimozione parole non consentite: escludere le parole comuni che non hanno un significato significativo.
  • TF-IDF: misura l'importanza delle parole in un documento rispetto a un corpus.
  • Tokenizer: suddividi il testo in singoli termini (parole).
  • Word2Vec: mappa le parole su vettori a dimensione fissa e crea incorporamenti di parole.

Trasformazione delle feature feature-transformation

Oltre alle feature di estrazione, utilizzate i trasformatori generali riportati di seguito per preparare le feature per modelli statistici avanzati e set di dati derivati. Applica il ridimensionamento, la normalizzazione o la codifica per garantire che le funzioni abbiano la stessa scala e una distribuzione simile.

Trasformatori generici

Di seguito è riportato un elenco di strumenti per l’elaborazione di un’ampia gamma di tipi di dati al fine di migliorare il flusso di lavoro di preelaborazione dei dati.

  • Imputer numerico: riempie i valori mancanti nelle colonne numeriche con un valore specificato, ad esempio la media o la mediana.
  • Input stringa: sostituire i valori stringa mancanti con un valore specificato, ad esempio la stringa più frequente nella colonna.
  • Assemblatore vettoriale: combina più colonne in un'unica colonna vettoriale per preparare i dati per i modelli di apprendimento automatico.
  • Imputer booleano: compilare i valori booleani mancanti con un valore specificato, ad esempio true o false.

Trasformatori numerici

Applicate queste tecniche per elaborare e scalare in modo efficace i dati numerici per migliorare le prestazioni del modello.

  • Binarizer: converte le funzionalità continue in valori binari basati su una soglia.
  • Bucketizer: mappa le funzioni continue in bucket discreti.
  • Scaler min-max: ridimensionare le funzionalità a un intervallo specificato, in genere [0, 1].
  • Max Abs Scaler: ridimensiona le funzioni all'intervallo [-1, 1] senza modificare la sparsità.
  • Normalizer: normalizza i vettori in modo che abbiano una norma unitaria.
  • Discretizzatore quantile: converte le funzionalità continue in funzionalità categoriche associandole a quantili.
  • Scala standard: normalizza le funzionalità in modo che abbiano una deviazione standard unitaria e/o una media pari a zero.

Trasformatori categorici

Utilizza questi trasformatori per convertire e codificare i dati delle categorie in formati adatti ai modelli di apprendimento automatico.

Selezione di funzioni feature-selection

Quindi, focalizzate la selezione di un sottoinsieme delle feature più importanti dal set originale. Questo processo consente di ridurre la dimensionalità dei dati, semplificando l’elaborazione dei modelli e migliorando le prestazioni complessive del modello.

Implementare la clausola OPTIONS options-clause

Quando si definisce il modello, utilizzare la clausola OPTIONS per specificare l'algoritmo e i relativi parametri. Iniziare impostando il parametro type per indicare l'algoritmo in uso, ad esempio K-Means. Definire quindi i parametri rilevanti nella clausola OPTIONS come coppie chiave-valore per ottimizzare il modello. Se si sceglie di non personalizzare determinati parametri, il sistema applica le impostazioni predefinite. Consulta la documentazione pertinente per informazioni sulla funzione di ciascun parametro e sui valori predefiniti.

Passaggi successivi

Dopo aver appreso le tecniche di ingegneria delle funzionalità descritte in questo documento, passare al documento Modelli. Ti guida attraverso il processo di creazione, formazione e gestione di modelli affidabili utilizzando le funzioni che hai progettato. Una volta generati i modelli, passare al documento Implementare modelli statistici avanzati.. Questo documento offre una panoramica e collegamenti a guide approfondite per diverse tecniche di modellazione, tra cui clustering, classificazione e regressione. Seguendo questi documenti, imparerai a configurare e implementare vari modelli affidabili all’interno dei flussi di lavoro SQL e a ottimizzare i modelli per l’analisi avanzata dei dati.

recommendation-more-help
ccf2b369-4031-483f-af63-a93b5ae5e3fb