Funktionsomvandlingstekniker
Transformeringar är viktiga förbearbetningssteg som konverterar eller skalar data till ett format som är lämpligt för modellutbildning och -analys, vilket ger optimala prestanda och precision. Det här dokumentet fungerar som en extra syntaxresurs och innehåller detaljerad information om viktiga funktionsomformningstekniker för förbearbetning av data.
Maskinininlärningsmodeller kan inte direkt bearbeta strängvärden eller null-värden, vilket gör dataförbearbetning nödvändig. I den här guiden beskrivs hur du använder olika omformningar för att imputera saknade värden, konvertera kategoriserade data till numeriska format och tillämpa funktionens skalningstekniker, till exempel kodning och vektorisering med en aktivering. Dessa metoder gör det möjligt för modeller att tolka och lära sig effektivt av data, vilket i slutänden förbättrar deras prestanda.
Automatisk funktionsomformning automatic-transformations
Om du väljer att hoppa över TRANSFORM
-satsen i ditt CREATE MODEL
-kommando utförs funktionsomformningen automatiskt. Automatisk förbearbetning av data inkluderar null-ersättning och standardfunktionsomvandlingar (baserat på datatypen). Numeriska kolumner och textkolumner imputeras automatiskt, och funktionsomformningar utförs för att säkerställa att data har ett lämpligt format för maskininlärningsmodellutbildning. Den här processen inkluderar dataimputering som saknas samt kategoriserade, numeriska och booleska omformningar.
I följande tabeller beskrivs hur olika datatyper hanteras när satsen TRANSFORM
utelämnas under kommandot CREATE MODEL
.
Null-ersättning automatic-null-replacement
ml_unknown
.FALSE
-värde.Omvandling av funktioner automatic-feature-transformation
exempel
CREATE model modelname options(model_type='logistic_reg', label='rating') AS SELECT * FROM movie_rating;
Manuella funktionsomvandlingar manual-transformations
Om du vill definiera anpassad förbearbetning av data i CREATE MODEL
-satsen använder du TRANSFORM
-satsen i kombination med valfritt antal tillgängliga omformningsfunktioner. Dessa manuella förbearbetningsfunktioner kan också användas utanför TRANSFORM
-satsen. Alla omformningar som beskrivs i avsnittet transformator nedan kan användas för att förbearbeta data manuellt.
Viktiga egenskaper key-characteristics
Följande är viktiga egenskaper i funktionsomformningen som du bör tänka på när du definierar förbearbetningsfunktionerna:
-
Syntax:
TRANSFORM(functionName(colName, parameters) <aliasNAME>)
- Aliasnamnet är obligatoriskt i syntaxen. Du måste ange ett aliasnamn, annars misslyckas frågan.
-
Parametrar: Parametrarna är positioneringsargument. Det innebär att varje parameter bara kan ta vissa värden och att alla föregående parametrar måste anges om anpassade värden anges. Mer information om vilken funktion som tar vilket argument finns i respektive dokumentation.
-
Klinande transformatorer: Utdata från en transformator kan bli indata till en annan transformator.
-
Funktionsanvändning: Den senaste funktionsomvandlingen används som en funktion i maskininlärningsmodellen.
Exempel
CREATE MODEL modelname
TRANSFORM(
string_imputer(language, 'adding_null') AS imp_language,
numeric_imputer(users_count, 'mode') AS imp_users_count,
string_indexer(imp_language) AS si_lang,
vector_assembler(array(imp_users_count, si_lang, watch_minutes)) AS features
)
OPTIONS(MODEL_TYPE='logistic_reg', LABEL='rating')
AS SELECT * FROM df;
Tillgängliga omformningar available-transformations
Det finns 19 tillgängliga omformningar. Dessa omformningar delas upp i Allmänna omformningar, Numeriska omformningar, Kategoriomformningar och Textuella omformningar.
Allmänna omformningar general-transformations
I det här avsnittet finns mer information om de transformatorer som används för ett stort antal datatyper. Den här informationen är viktig om du behöver använda omformningar som inte är specifika för kategoriserade data eller textdata.
Numerisk imputer numeric-imputer
Transformeraren Numerisk imputer slutför saknade värden i en datauppsättning. Detta använder antingen medelvärdet, medianen eller läget för de kolumner där de saknade värdena finns. Indatakolumnerna ska vara antingen DoubleType
eller FloatType
. Mer information och exempel finns i dokumentationen för Spark-algoritmen.
Datatyper
- Indatatyp: Numerisk
- Datatyp för utdata: Numerisk
Definition
transformer(numeric_imputer(hour, 'mean') hour_imputed)
Parametrar
STRATEGY
mean
, median
, mode
].Exempel före imputation
Exempel efter imputation (med medelstrategi)
Strängimputer string-imputer
Transformeraren String imputer slutför saknade värden i en datauppsättning med en sträng som anges av användaren som ett funktionsargument. Indata- och utdatakolumnerna ska vara datatypen string
.
Datatyper
- Indatatyp: String
- Datatyp för utdata: String
Definition
transform(string_imputer(name, 'unknown_name') as name_imputed)
Parametrar
NULL_REPLACEMENT
Exempel före imputation
Exempel efter imputation (använder 'ml_unknown' som ersättning)
Boolean imputer boolean-imputer
Transformeraren Boolean imputer slutför saknade värden i en datauppsättning för en boolesk kolumn. Indata- och utdatakolumnerna ska vara av typen Boolean
.
Datatyper
- Indatatyp: Boolean
- Datatyp för utdata: Boolean
Definition
transform(boolean_imputer(name, true) as name_imputed)
Parametrar
NULL_REPLACEMENT
true
, false
].Exempel före imputation
Exempel efter imputation (använder 'true' som ersättning)
Vektormonterare vector-assembler
Transformatorn VectorAssembler
kombinerar en angiven lista med indatakolumner till en enda vektorkolumn, vilket gör det enklare att hantera flera funktioner i maskininlärningsmodeller. Detta är särskilt användbart när du vill sammanfoga råfunktioner och funktioner som genererats av olika funktionstransformerare i en enda funktionsvektor. VectorAssembler
accepterar indatakolumner av numeriska, booleska och vektortyper. I varje rad sammanfogas värdena för indatakolumnerna till en vektor i den angivna ordningen.
Datatyper
- Indatatatyp:
array[string]
(kolumnnamn med numeriska värden/matrisvärden [numeriska värden]) - Utdatatyp:
Vector[double]
Definition
transform(vector_assembler(id, hour, mobile, userFeatures) as features)
Parametrar
Exempel före omformning
Exempel efter omformning
Numeriska omformningar numeric-transformations
Läs det här avsnittet om du vill veta mer om de tillgängliga transformatorerna för bearbetning och skalning av numeriska data. Dessa transformatorer behövs för att hantera och optimera numeriska funktioner i datauppsättningarna.
Binarizer binarizer
Transformeraren Binarizer
konverterar numeriska funktioner till binära (0/1) funktioner via en process som kallas binarisering. Funktionsvärden som är större än det angivna tröskelvärdet konverteras till 1,0, medan värden som är lika med eller mindre än tröskelvärdet konverteras till 0,0. Binarizer
stöder både Vector
- och Double
-typer för indatakolumnen.
Datatyper
- Indatatyp: Numerisk kolumn
- Datatyp för utdata: Numerisk
Definition
transform(numeric_imputer(rating, 'mode') rating_imp, binarizer(rating_imp) rating_binarizer)
Parametrar
THRESHOLD
Exempel på indata före binarisering
Exempelutdata efter binarisering (standardtröskelvärde 0,0)
Definition med anpassat tröskelvärde
transform(numeric_imputer(age, 'mode') age_imp, binarizer(age_imp, 14.0) age_binarizer)
Exempelutdata efter binarisering (med tröskelvärdet 14.0)
Bucketizer bucketizer
Transformeraren Bucketizer
konverterar en kolumn med kontinuerliga funktioner till en kolumn med funktionsintervall, baserat på användardefinierade tröskelvärden. Den här processen är användbar när du vill segmentera kontinuerliga data i diskreta behållare eller fickor. Bucketizer
kräver en splits
-parameter som definierar gränserna för bucketerna.
Datatyper
- Indatatyp: Numerisk kolumn
- Datatyp för utdata: Numeriska (bundna värden)
Definition
TRANSFORM(binarizer(time_spent, 5.0) as binary, bucketizer(course_duration, array(-440.5, 0.0, 150.0, 1000.7)) as buck_features, vector_assembler(array(buck_features, users_count, binary)) as vec_assembler, max_abs_scaler(vec_assembler) as maxScaling, min_max_scaler(maxScaling) as features)
Parametrar
splits
n+1
delningar finns det n
bucket. Delningar måste vara i strikt ökande ordning och intervallet (x,y) används för varje hink utom den sista, som inkluderar y.Exempel på delningar
- Array(Double.NegativeInfinity, 0.0, 1.0, Double.PositiveInfinity)
- Array(0.0, 1.0, 2.0)
Delningar ska omfatta hela intervallet med dubbla värden. Annars behandlas värden utanför de angivna delningarna som fel.
Exempelomformning
Det här exemplet tar en kolumn med kontinuerliga funktioner (course_duration
), binder den enligt splits
och sätter sedan ihop de resulterande bucklarna med andra funktioner.
TRANSFORM(binarizer(time_spent, 5.0) as binary, bucketizer(course_duration, array(-440.5, 0.0, 150.0, 1000.7)) as buck_features, vector_assembler(array(buck_features, users_count, binary)) as vec_assembler, max_abs_scaler(vec_assembler) as maxScaling, min_max_scaler(maxScaling) as features)
MinMaxScaler minmaxscaler
Transformatorn MinMaxScaler
skalar om varje funktion i en vektorraduppsättning till ett angivet intervall, vanligtvis [0, 1]. Detta garanterar att alla funktioner bidrar lika mycket till modellen. Det är särskilt användbart för modeller som är känsliga för funktionsskalning, till exempel övertoningsbaserade algoritmer. MinMaxScaler
arbetar med följande parametrar:
- min: Omvandlingens nedre gräns, som delas av alla funktioner. Standardvärdet är
0.0
. - max: Omvandlingens övre gräns, som delas av alla funktioner. Standardvärdet är
1.0
.
Datatyper
- Indatatyp:
Array[Double]
- Utdatatyp:
Array[Double]
Definition
TRANSFORM(binarizer(time_spent, 5.0) as binary, bucketizer(course_duration, array(-440.5, 0.0, 150.0, 1000.7)) as buck_features, vector_assembler(array(buck_features, users_count, binary)) as vec_assembler, max_abs_scaler(vec_assembler) as maxScaling, min_max_scaler(maxScaling) as features)
Parametrar
min
max
Exempelomformning
I det här exemplet omformas en uppsättning funktioner och de skalas om till det angivna intervallet med MinMaxScaler efter att flera andra omformningar har använts.
TRANSFORM(binarizer(time_spent, 5.0) as binary, bucketizer(course_duration, array(-440.5, 0.0, 150.0, 1000.7)) as buck_features, vector_assembler(array(buck_features, users_count, binary)) as vec_assembler, max_abs_scaler(vec_assembler) as maxScaling, min_max_scaler(maxScaling) as features)
MaxAbsScaler maxabsscaler
Transformatorn MaxAbsScaler
skalar om varje funktion i en vektorraduppsättning till intervallet [-1, 1] genom att dividera med det maximala absoluta värdet för varje funktion. Den här omformningen är idealisk för att bevara glans i datauppsättningar med både positiva och negativa värden, eftersom data inte flyttas eller centreras. Detta gör MaxAbsScaler
särskilt lämplig för modeller som är känsliga för skalan av indatafunktioner, t.ex. sådana som innefattar distansberäkningar.
Datatyper
- Indatatyp:
Array[Double]
- Utdatatyp:
Array[Double]
Definition
TRANSFORM(binarizer(time_spent, 5.0) as binary, bucketizer(course_duration, array(-440.5, 0.0, 150.0, 1000.7)) as buck_features, vector_assembler(array(buck_features, users_count, binary)) as vec_assembler, max_abs_scaler(vec_assembler) as maxScaling)
Parametrar
Exempelomformning
I det här exemplet används flera omformningar, inklusive MaxAbsScaler
, för att skala om funktioner till intervallet [-1, 1].
TRANSFORM(binarizer(time_spent, 5.0) as binary, bucketizer(course_duration, array(-440.5, 0.0, 150.0, 1000.7)) as buck_features, vector_assembler(array(buck_features, users_count, binary)) as vec_assembler, max_abs_scaler(vec_assembler) as maxScaling)
Normaliserare normalizer
Normalizer
är en transformator som normaliserar varje vektor i en vektorraduppsättning så att den har en enhetsnorm. Denna process garanterar en konsekvent skala utan att vektorernas riktning ändras. Den här omvandlingen är särskilt användbar i maskininlärningsmodeller som bygger på avståndsmått eller andra vektorbaserade beräkningar, särskilt när vektorernas storlek varierar avsevärt.
Datatyper
- Indatatyp:
array[double]
/vector[double]
- Utdatatyp:
vector[double]
Definition
TRANSFORM(binarizer(time_spent, 5.0) as binary, bucketizer(course_duration, array(-440.5, 0.0, 150.0, 1000.7)) as buck_features, vector_assembler(array(buck_features, users_count, binary)) as vec_assembler, normalizer(vec_assembler, 3) as normalized)
Parametrar
p
p-norm
som används för normalisering (till exempel 1-norm
, 2-norm
).Exempelomformning
I det här exemplet visas hur du använder flera omformningar, inklusive Normalizer
, för att normalisera en uppsättning funktioner med den angivna p-norm
.
TRANSFORM(binarizer(time_spent, 5.0) as binary, bucketizer(course_duration, array(-440.5, 0.0, 150.0, 1000.7)) as buck_features, vector_assembler(array(buck_features, users_count, binary)) as vec_assembler, normalizer(vec_assembler, 3) as normalized)
QuantileDiscretizer quantilediscretizer
QuantileDiscretizer
är en transformator som konverterar en kolumn med kontinuerliga funktioner till binda kategorisiska funktioner, med det antal behållare som bestäms av parametern numBuckets
. I vissa fall kan det faktiska antalet bucklar vara mindre än det angivna antalet om det finns för få distinkta värden för att skapa tillräckligt många kvantiteter.
Den här omvandlingen är särskilt användbar när du vill förenkla representationen av kontinuerliga data eller förbereda dem för algoritmer som fungerar bättre med kategoriserade indata.
Datatyper
- Indatatyp: Numerisk kolumn
- Datatyp för utdata: Numerisk kolumn (kategorisisk)
Definition
TRANSFORM(quantile_discretizer(hour, 3) as result)
Parametrar
NUM_BUCKETS
Exempelomformning
I det här exemplet visas hur QuantileDiscretizer
binder en kolumn med kontinuerliga funktioner (hour
) till tre kategorier.
TRANSFORM(quantile_discretizer(hour, 3) as result)
Exempel före och efter diskretisering
StandardScaler standardscaler
StandardScaler
är en transformator som normaliserar varje funktion i en vektorraduppsättning så att den har en enhetsstandardavvikelse och/eller nollmedelvärde. Den här processen gör data mer lämpliga för algoritmer som antar att funktioner centreras runt noll med en konsekvent skala. Omvandlingen är särskilt viktig för maskininlärningsmodeller som SVM, logistisk regression och neurala nätverk, där icke standardiserade data kan leda till konvergensproblem eller minskad precision.
Datatyper
- Indatatyp: Vector
- Datatyp för utdata: Vektor
Definition
TRANSFORM(standard_scaler(feature) as ss_features)
Parametrar
withStd
withMean
Exempelomformning
I det här exemplet visas hur du använder StandardScaler på en uppsättning funktioner och normaliserar dem med enhetsstandardavvikelse och nollmedelvärde.
TRANSFORM(standard_scaler(feature) as ss_features)
Kategoriserade omformningar categorical-transformations
I det här avsnittet finns en översikt över de tillgängliga transformatorerna för att konvertera och förbearbeta kategoriserade data för maskininlärningsmodeller. Dessa omformningar är utformade för datapunkter som representerar distinkta kategorier eller etiketter, i stället för numeriska värden.
StringIndexer stringindexer
StringIndexer
är en transformator som kodar en strängkolumn med etiketter till en kolumn med numeriska index. Indexvärdena ligger mellan 0 och numLabels
och sorteras efter etikettfrekvens (den vanligaste etiketten får indexvärdet 0). Om indatakolumnen är numerisk byts den till en sträng före indexering. Osynliga etiketter kan tilldelas indexet numLabels
om det anges av användaren.
Den här omvandlingen är särskilt användbar när du vill konvertera kategoriserade strängdata till numeriska format, vilket gör den lämplig för maskininlärningsmodeller som kräver numeriska indata.
Datatyper
- Indatatyp: String
- Datatyp för utdata: Numerisk
Definition
TRANSFORM(string_indexer(category) as si_category)
Parametrar
StringIndexer
kräver inga ytterligare parametrar för åtgärden.Exempelomformning
I det här exemplet visas hur du använder StringIndexer
på en kategorisisk funktion och konverterar den till ett numeriskt index.
TRANSFORM(string_indexer(category) as si_category)
OneHotEncoder onehotencoder
OneHotEncoder
är en transformator som konverterar en kolumn med etikettindex till en kolumn med null-optimerade binära vektorer, där varje vektor har högst ett enda värde. Den här kodningen är särskilt användbar för att tillåta att algoritmer som kräver numeriska indata, t.ex. Logistisk regression, kan införliva kategoriserade data effektivt.
Datatyper
- Indatatyp: Numerisk
- Datatyp för utdata: Vector[Int]
Definition
TRANSFORM(string_indexer(category) as si_category, one_hot_encoder(si_category) as ohe_category)
Parametrar
Exempelomformning
I det här exemplet visas hur du först tillämpar StringIndexer
på en kategoriseringsfunktion och sedan använder OneHotEncoder
för att konvertera indexerade värden till en binär vektor.
TRANSFORM(string_indexer(category) as si_category, one_hot_encoder(si_category) as ohe_category)
Textuella omvandlingar textual-transformations
I det här avsnittet finns information om de omvandlare som är tillgängliga för bearbetning och konvertering av textdata till format som kan användas i maskininlärningsmodeller. Detta avsnitt är mycket viktigt för utvecklare som arbetar med naturliga språkdata och textanalys.
CountVectorizer countvectorizer
CountVectorizer
är en transformator som konverterar en samling textdokument till vektorer för tokenantal, vilket skapar glesare representationer baserat på det vokabulär som extraherats från corpus. Den här omvandlingen är väsentlig för att konvertera textdata till ett numeriskt format som kan användas av maskininlärningsalgoritmer, som LDA (Latent Dirichlet Allocation), genom att representera frekvensen av tokens i varje dokument.
Datatyper
- Indatatyp: Array[String]
- Datatyp för utdata: Tät vektor
Definition
TRANSFORM(count_vectorizer(texts) as cv_output)
Parametrar
VOCAB_SIZE
vocabSize
mest använda termerna som ordnas efter termfrekvens i korpus.MIN_DOC_FREQ
MAX_DOC_FREQ
MIN_TERM_FREQ
Exempelomformning
I det här exemplet visas hur CountVectorizer konverterar en samling med textarrayer till vektorer med tokenantal, vilket ger en glesare representation.
TRANSFORM(count_vectorizer(texts) as cv_output)
Exempel före och efter vektorisering
NGram ngram
NGram
är en transformator som genererar en sekvens av n-gram, där n-gram är en sekvens av (??) tokens (vanligtvis ord) för ett heltal (𝑛
). Utdata består av blankstegsavgränsade strängar av '?' på varandra följande ord, som kan användas som funktioner i maskininlärningsmodeller, särskilt sådana som är inriktade på bearbetning av naturligt språk.
Datatyper
- Indatatyp: Array[String]
- Datatyp för utdata: Array[String]
Definition
TRANSFORM(tokenizer(review_comments) as token_comments, ngram(token_comments, 3) as n_tokens)
Parametrar
N
Exempelomformning
I det här exemplet visas hur NGram-transformatorn skapar en sekvens på 3 gram från en lista med tokens som härletts från textdata.
TRANSFORM(tokenizer(review_comments) as token_comments, ngram(token_comments, 3) as n_tokens)
Exempel före och efter n-gram-omvandling
StopWordsRemover stopwordsremover
StopWordsRemover
är en transformator som tar bort stoppord från en strängsekvens och filtrerar bort vanliga ord som inte har någon väsentlig betydelse. Den tar en sekvens med strängar som indata (till exempel utdata från en tokeniserare) och tar bort alla stoppord som anges av parametern stopWords
.
Den här omvandlingen är användbar för förbearbetning av textdata, vilket förbättrar effektiviteten i maskininlärningsmodeller längre fram i kedjan genom att eliminera ord som inte bidrar mycket till den övergripande innebörden.
Datatyper
- Indatatyp: Array[String]
- Datatyp för utdata: Array[String]
Definition
TRANSFORM(stop_words_remover(raw) as filtered)
Parametrar
stopWords
Exempelomformning
I det här exemplet visas hur StopWordsRemover
filtrerar bort vanliga engelska stoppord från en lista med tokens.
TRANSFORM(stop_words_remover(raw) as filtered)
Exempel på borttagning av stoppord före och efter
Exempel med egna stoppord
I det här exemplet visas hur du använder en anpassad lista med stoppord för att filtrera bort specifika ord från indatasekvenserna.
TRANSFORM(stop_words_remover(raw, array("red", "I", "had")) as filtered)
Exempel på borttagning av egna stoppord före och efter
TF-IDF tf-idf
TF-IDF
(frekvens för omvänd termsekvens) är en transformator som används för att mäta vikten av ett ord i ett dokument i förhållande till ett corpus. Termfrekvens (TF) avser det antal gånger en term (t) visas i ett dokument (d), medan dokumentfrekvens (DF) anger hur många dokument i korpus (D) som innehåller termen (t). Den här metoden används ofta vid textbrytning för att minska effekten av ofta förekommande ord, som"a","the" och"of", som innehåller lite unik information.
Den här omvandlingen är särskilt värdefull när det gäller textbrytning och bearbetning av naturliga språk eftersom den tilldelar ett numeriskt värde till varje ords betydelse i ett dokument och i hela corpus.
Datatyper
- Indatatyp: Array[String]
- Datatyp för utdata: Vector[Int]
Definition
create table td_idf_model transform(tokenizer(sentence) as token_sentence, tf_idf(token_sentence) as tf_sentence, vector_assembler(array(tf_sentence)) as feature) OPTIONS()
Parametrar
NUM_FEATURES
MIN_DOC_FREQ
Exempelomformning
I det här exemplet visas hur du använder TF-IDF för att omvandla tokeniserade meningar till en funktionsvektor som representerar vikten av varje term i sammanhanget för hela corpus.
create table td_idf_model transform(tokenizer(sentence) as token_sentence, tf_idf(token_sentence) as tf_sentence, vector_assembler(array(tf_sentence)) as feature) OPTIONS()
Tokenior tokenizer
Tokenizer
är en transformator som delar upp text, t.ex. en mening, i enskilda termer, vanligtvis ord. Den konverterar meningar till arrayer med variabler, vilket utgör ett grundläggande steg i textförbearbetningen som förbereder data för vidare textanalys eller modelleringsprocesser.
Datatyper
- Indatatyp: Textmening
- Datatyp för utdata: Array[String]
Definition
create table td_idf_model transform(tokenizer(sentence) as token_sentence, tf_idf(token_sentence) as tf_sentence, vector_assembler(array(tf_sentence)) as feature) OPTIONS()
Parametrar
Tokenizer
kräver inga ytterligare parametrar för åtgärden.Exempelomformning
I det här exemplet visas hur Tokenizer
delar upp meningar i enskilda ord (tokens) som en del av en textbearbetningsprocess.
create table td_idf_model transform(tokenizer(sentence) as token_sentence, tf_idf(token_sentence) as tf_sentence, vector_assembler(array(tf_sentence)) as feature) OPTIONS()
Word2Vec word2vec
Word2Vec
är en uppskattare som bearbetar ordsekvenser som representerar dokument och utbildar en Word2VecModel
. Den här modellen mappar varje ord till en unik vektor med fast storlek och omvandlar varje dokument till en vektor genom att beräkna ett genomsnitt för vektorerna för alla ord i dokumentet. Det används ofta i naturliga språkbehandlingsåtgärder. Word2Vec
skapar ordinbäddningar som fångar in semantisk betydelse, konverterar textdata till numeriska vektorer som representerar relationerna mellan ord och möjliggör effektivare textanalys och maskininlärningsmodeller.
Datatyper
- Indatatyp: Array[String]
- Datatyp för utdata: Vector[Double]
Definition
TRANSFORM(tokenizer(review) as tokenized, word2Vec(tokenized, 10, 1) as word2Vec)
Parametrar
VECTOR_SIZE
MIN_COUNT
Word2Vec
-modellens vokabulär.Exempelomformning
I det här exemplet visas hur Word2Vec
konverterar en tokeniserad granskning till en vektor med fast storlek som representerar medelvärdet för ordvektorerna i dokumentet.
TRANSFORM(tokenizer(review) as tokenized, word2Vec(tokenized, 10, 1) as word2Vec)
Exempel före och efter Word2Vec-omformning