Classificatiealgoritmen classification-algorithms
Dit document biedt een overzicht van verschillende classificatiealgoritmen, waarbij de nadruk ligt op hun configuratie, sleutelparameters en praktisch gebruik in geavanceerde statistische modellen. Classificatiealgoritmen worden gebruikt om categorieën aan gegevenspunten toe te wijzen die op inputeigenschappen worden gebaseerd. Elke sectie omvat parameterbeschrijvingen en voorbeeldcode om u te helpen deze algoritmen voor taken uitvoeren en optimaliseren zoals beslissingsbomen, willekeurig bos, en naive classificatie Bayes.
Decision Tree Classifier decision-tree-classifier
Decision Tree Classifier is een leermethode onder toezicht die wordt gebruikt in statistieken, datamining en het leren van machines. In deze aanpak wordt een beslissingsstructuur gebruikt als een voorspellend model voor classificatietaken, waarbij conclusies worden getrokken uit een reeks waarnemingen.
Parameters
In de onderstaande tabel staan de belangrijkste parameters voor het configureren en optimaliseren van de prestaties van een Decision Tree Classifier .
MAX_BINSCACHE_NODE_IDSfalse , gaat het algoritme bomen tot uitvoerders over om instanties met knopen aan te passen. Als true, het algoritme knoop IDs voor elke instantie in cache plaatst, die de opleiding van diepere bomen versnelt.falsetrue, falseCHECKPOINT_INTERVAL10 betekent bijvoorbeeld dat de cache om de 10 herhalingen wordt gecontroleerd.IMPURITYentropy, giniMAX_DEPTH0 betekent bijvoorbeeld 1 bladknooppunt en de diepte 1 1 interne node en 2 bladknooppunten.MIN_INFO_GAINMIN_WEIGHT_FRACTION_PER_NODEMIN_INSTANCES_PER_NODEMAX_MEMORY_IN_MBPREDICTION_COLSEEDWEIGHT_COL1.0 .ONE_VS_RESTfalsetrue, falseVoorbeeld
Create MODEL modelname OPTIONS(
type = 'decision_tree_classifier'
) AS
select col1, col2, col3 from training-dataset
Factorization Machine Classifier factorization-machine-classifier
Factorization Machine Classifier is een classificatiealgoritme dat normale gradiënt descent en de solver AdamW steunt. Het indelingsmodel van de Factorization Machine maakt gebruik van logistiek verlies, dat kan worden geoptimaliseerd via een afdaling van het verloop en bevat vaak regularisatievoorwaarden zoals L2 om overmaat te voorkomen.
Parameters
In de onderstaande tabel staan de belangrijkste parameters voor het configureren en optimaliseren van de prestaties van de Factorization Machine Classifier .
TOL1E-6FACTOR_SIZEFIT_INTERCEPTtruetrue, falseFIT_LINEARtruetrue, falseINIT_STDMAX_ITERMINI_BATCH_FRACTION(0, 1] vallen.REG_PARAMSEEDSOLVERgd (verlopende descent) en adamW .gd, adamWSTEP_SIZEPROBABILITY_COLPREDICTION_COLRAW_PREDICTION_COLONE_VS_RESTtrue, falseVoorbeeld
CREATE MODEL modelname OPTIONS(
type = 'factorization_machines_classifier'
) AS
SELECT col1, col2, col3 FROM training-dataset
Gradient Boosted Tree Classifier gradient-boosted-tree-classifier
Gradient Boosted Tree Classifier gebruikt een samenstel van beslissingsbomen om de nauwkeurigheid van classificatietaken te verbeteren, die veelvoudige bomen combineren om modelprestaties te verbeteren.
Parameters
In de onderstaande tabel staan de belangrijkste parameters voor het configureren en optimaliseren van de prestaties van de Gradient Boosted Tree Classifier .
MAX_BINSCACHE_NODE_IDSfalse , gaat het algoritme bomen tot uitvoerders over om instanties met knopen aan te passen. Als true, het algoritme knoop IDs voor elke instantie in cache plaatst, die de opleiding van diepere bomen versnelt.falsetrue, falseCHECKPOINT_INTERVAL10 betekent bijvoorbeeld dat de cache om de 10 herhalingen wordt gecontroleerd.MAX_DEPTH0 betekent bijvoorbeeld 1 bladknooppunt en de diepte 1 1 interne node en 2 bladknooppunten.MIN_INFO_GAINMIN_WEIGHT_FRACTION_PER_NODEMIN_INSTANCES_PER_NODEMAX_MEMORY_IN_MBPREDICTION_COLVALIDATION_INDICATOR_COLfalse geeft training aan en true geeft validatie aan. Wanneer geen waarde is ingesteld, is de standaardwaarde None .RAW_PREDICTION_COLLEAF_COLFEATURE_SUBSET_STRATEGYauto (automatisch bepaald op basis van de taak), all (alle functies gebruiken), onethird (gebruik een derde van de functies), sqrt (gebruik de vierkantswortel van het aantal functies), log2 (gebruik de natuurlijke logaritme met grondtal 2 van het aantal functies) en n (waarbij n een fractie van de functies is als deze binnen het bereik (0, 1] vallen, of een specifiek aantal functies als deze binnen het bereik [1, total number of features] vallen).auto, all, onethird, sqrt, log2, nWEIGHT_COL1.0 .LOSS_TYPElogistic (hoofdlettergevoelig)STEP_SIZE(0, 1] die wordt gebruikt om de bijdrage van elke schatter te verlagen.MAX_ITERSUBSAMPLING_RATE(0, 1]PROBABILITY_COLONE_VS_RESTfalsetrue, falseVoorbeeld
Create MODEL modelname OPTIONS(
type = 'gradient_boosted_tree_classifier'
) AS
select col1, col2, col3 from training-dataset
Linear Support Vector Classifier (LinearSVC) linear-support-vector-classifier
Met Linear Support Vector Classifier (LinearSVC) wordt een hypervlak gemaakt waarin gegevens worden ingedeeld in een hoogdimensionale ruimte. U kunt deze optie gebruiken om de marge tussen klassen te maximaliseren om classificatiefouten te minimaliseren.
Parameters
In de onderstaande tabel staan de belangrijkste parameters voor het configureren en optimaliseren van de prestaties van de Linear Support Vector Classifier (LinearSVC) .
MAX_ITERAGGREGATION_DEPTHFIT_INTERCEPTtruetrue, falseTOLMAX_BLOCK_SIZE_IN_MB0 is ingesteld, wordt automatisch de optimale waarde gekozen (gewoonlijk rond 1 MB).REG_PARAMSTANDARDIZATIONtruetrue, falsePREDICTION_COLRAW_PREDICTION_COLONE_VS_RESTfalsetrue, falseVoorbeeld
Create MODEL modelname OPTIONS(
type = 'linear_svc_classifier'
) AS
select col1, col2, col3 from training-dataset
Logistic Regression logistic-regression
Logistic Regression is een onder toezicht staand algoritme dat wordt gebruikt voor binaire classificatietaken. De methode modelleert de waarschijnlijkheid dat een instantie tot een klasse behoort die de logistieke functie gebruikt en wijst de instantie met de hogere waarschijnlijkheid toe aan de klasse. Dit maakt het geschikt voor problemen waarbij het doel is gegevens in één van twee categorieën te scheiden.
Parameters
In de onderstaande tabel staan de belangrijkste parameters voor het configureren en optimaliseren van de prestaties van Logistic Regression .
MAX_ITERREGPARAMELASTICNETPARAMElasticNet -mixparameter bepaalt de balans tussen L1 (Lasso) en L2 (Ridge) boetes. Bij de waarde 0 wordt een L2-boete toegepast (Rand, waardoor de grootte van de coëfficiënten afneemt), terwijl bij de waarde 1 een L1-boete wordt toegepast (Lasso, dat de flexibiliteit aanmoedigt door bepaalde coëfficiënten in te stellen op nul).Voorbeeld
Create MODEL modelname OPTIONS(
type = 'logistic_reg'
) AS
select col1, col2, col3 from training-dataset
Multilayer Perceptron Classifier multilayer-perceptron-classifier
De Multilayer Perceptron Classifier (MLPC) is een kunstmatige classificatie voor neurale netwerken. Het bestaat uit meerdere volledig verbonden lagen knooppunten, waarbij elk knooppunt een gewogen lineaire combinatie van ingangen toepast, gevolgd door een activeringsfunctie. MLPC wordt gebruikt voor complexe classificatietaken die niet-lineaire beslissingsgrenzen vereisen.
Parameters
MAX_ITERBLOCK_SIZESTEP_SIZEgd ).TOL1E-6PREDICTION_COLSEEDPROBABILITY_COLRAW_PREDICTION_COLONE_VS_RESTfalsetrue, falseVoorbeeld
CREATE MODEL modelname OPTIONS(
type = 'multilayer_perceptron_classifier'
) AS
select col1, col2, col3 from training-dataset
Naive Bayes Classifier naive-bayes-classifier
Naive Bayes Classifier is een eenvoudige probabilistische, meerklassenclassificator gebaseerd op de stelling van Bayes met sterke (naïeve) onafhankelijkheidsaannames tussen eigenschappen. Het treinpersoneel traint efficiënt door voorwaardelijke waarschijnlijkheden in één keer te berekenen over de trainingsgegevens om de voorwaardelijke kansverdeling van elk onderdeel op elk label te berekenen. Voor voorspellingen gebruikt het de stelling van Bayes om de voorwaardelijke waarschijnlijkheidsverdeling van elk label te berekenen op basis van een waarneming.
Parameters
MODEL_TYPE"multinomial" , "complement" , "bernoulli" en "gaussian" . Modeltype is hoofdlettergevoelig."multinomial", "complement", "bernoulli", "gaussian"SMOOTHINGPROBABILITY_COLWEIGHT_COL1.0 .PREDICTION_COLRAW_PREDICTION_COLONE_VS_RESTfalsetrue, falseVoorbeeld
CREATE MODEL modelname OPTIONS(
type = 'naive_bayes_classifier'
) AS
SELECT col1, col2, col3 FROM training-dataset
Random Forest Classifier random-forest-classifier
Random Forest Classifier is een ensemble Learning-algoritme die tijdens de training meerdere beslissingsstructuren maakt. Het verzacht overdreven aanpassing door voorspellingen te gemiddelde te nemen en de klasse te kiezen die door de meerderheid van de bomen voor classificatietaken wordt gekozen.
Parameters
MAX_BINSCACHE_NODE_IDSfalse , gaat het algoritme bomen tot uitvoerders over om instanties met knopen aan te passen. Indien true, plaatst het algoritme knoop IDs voor elke instantie in het voorgeheugen, die opleiding versnelt.falsetrue, falseCHECKPOINT_INTERVAL10 betekent bijvoorbeeld dat de cache om de 10 herhalingen wordt gecontroleerd.IMPURITYentropy, giniMAX_DEPTH0 betekent bijvoorbeeld 1 bladknooppunt en de diepte 1 1 interne node en 2 bladknooppunten.MIN_INFO_GAINMIN_WEIGHT_FRACTION_PER_NODEMIN_INSTANCES_PER_NODEMAX_MEMORY_IN_MBPREDICTION_COLWEIGHT_COL1.0 .SEEDBOOTSTRAPtruetrue, falseNUM_TREES1 , dan wordt geen bootstrapping gebruikt. Als dit groter is dan 1, wordt de overvulling bootstrapping toegepast.SUBSAMPLING_RATELEAF_COLPROBABILITY_COLRAW_PREDICTION_COLONE_VS_RESTfalsetrue, falseVoorbeeld
Create MODEL modelname OPTIONS(
type = 'random_forest_classifier'
) AS
select col1, col2, col3 from training-dataset
Volgende stappen
Na het lezen van dit document, weet u nu hoe te om diverse classificatiealgoritmen te vormen en te gebruiken. Daarna, verwijs naar de documenten op regressie en groeperend om over andere soorten geavanceerde statistische modellen te leren.