DokumentationExperience PlatformHandbuch zum Abfragedienst

Regressionsalgorithmen

Letzte Aktualisierung: 30. Dezember 2024
  • Themen:
  • Abfragen

Erstellt für:

  • Entwickler

Dieses Dokument bietet einen Überblick über verschiedene Regressionsalgorithmen, wobei der Schwerpunkt auf ihrer Konfiguration, den wichtigsten Parametern und der praktischen Verwendung in erweiterten statistischen Modellen liegt. Regressionsalgorithmen werden verwendet, um die Beziehung zwischen abhängigen und unabhängigen Variablen zu modellieren und kontinuierliche Ergebnisse auf der Grundlage der beobachteten Daten vorherzusagen. Jeder Abschnitt enthält Parameterbeschreibungen und Beispiel-Code, der Ihnen bei der Implementierung und Optimierung dieser Algorithmen für Aufgaben wie lineare, zufällige Gesamtstruktur- und Überlebensregression hilft.

Decision Tree Regression

Decision Tree Lernen ist eine überwachte Lernmethode, die in der Statistik, im Data Mining und im maschinellen Lernen verwendet wird. Bei diesem Ansatz wird ein Klassifizierungs- oder Regressionsentscheidungsbaum als prädiktives Modell verwendet, um Rückschlüsse auf eine Reihe von Beobachtungen zu ziehen.

Parameter

In der folgenden Tabelle sind die wichtigsten Parameter zur Konfiguration und Optimierung der Leistung von Entscheidungsbaum-Modellen aufgeführt.

ParameterBeschreibungStandardwertMögliche Werte
MAX_BINSDieser Parameter gibt die maximale Anzahl von Klassen an, die verwendet werden, um kontinuierliche KEs zu diskretisieren und Aufspaltungen bei jedem Knoten zu bestimmen. Mehr Klassen führen zu einer feineren Granularität und Detailgenauigkeit.32Muss mindestens 2 und mindestens die Anzahl der Kategorien in einem kategorialen Merkmal sein.
CACHE_NODE_IDSDieser Parameter bestimmt, ob Knoten-IDs für jede Instanz zwischengespeichert werden. Wenn false, übergibt der Algorithmus Bäume an ausführende Benutzer, damit Instanzen mit Knoten abgeglichen werden. Wenn true, speichert der Algorithmus Knoten-IDs für jede Instanz zwischen, was das Training tiefer stehender Baumstrukturen beschleunigen kann. Benutzer können konfigurieren, wie oft der Cache überprüft werden soll, oder ihn deaktivieren, indem sie CHECKPOINT_INTERVAL festlegen.falsetrue oder false
CHECKPOINT_INTERVALDieser Parameter gibt an, wie oft die Knoten-IDs im Cache überprüft werden sollen. Wenn Sie beispielsweise auf 10 setzen, wird der Cache alle 10 Iterationen überprüft. Dies gilt nur, wenn CACHE_NODE_IDS auf true gesetzt ist und das Checkpoint-Verzeichnis in org.apache.spark.SparkContext konfiguriert ist.10(>=1)
IMPURITYDieser Parameter gibt das Kriterium für die Berechnung des Informationsgewinns an. Unterstützte Werte sind entropy und gini.ginientropy, gini
MAX_DEPTHDieser Parameter gibt die maximale Tiefe der Baumstruktur an. Beispielsweise bedeutet eine Tiefe von 0 1 Blattknoten, während eine Tiefe von 1 1 interner Knoten und 2 Blattknoten bedeutet. Die Tiefe muss innerhalb des Bereichs [0, 30] liegen.5[,0 ]
MIN_INFO_GAINDieser Parameter legt den minimalen Informationsgewinn fest, der erforderlich ist, damit eine Aufspaltung in einem Strukturknoten als gültig betrachtet wird.0,0(>=0.0)
MIN_WEIGHT_FRACTION_PER_NODEDieser Parameter gibt den Mindestbruchteil der gewichteten Stichprobenanzahl an, den jeder untergeordnete Knoten nach einer Aufspaltung aufweisen muss. Wenn einer der untergeordneten Knoten einen Bruchteil kleiner als diesen Wert hat, wird die Aufspaltung verworfen.0,0[0,0, 0,5 ]
MIN_INSTANCES_PER_NODEDieser Parameter legt die Mindestanzahl von Instanzen fest, die jeder untergeordnete Knoten nach einer Aufspaltung aufweisen muss. Wenn eine Aufspaltung zu weniger Instanzen als diesem Wert führt, wird die Aufspaltung als ungültig verworfen.1(>=1)
MAX_MEMORY_IN_MBDieser Parameter gibt den maximalen Speicher in Megabyte (MB) an, der für die Histogrammaggregation zugewiesen wird. Wenn der Speicher zu klein ist, wird pro Iteration nur ein Knoten aufgeteilt, und seine Aggregate können diese Größe überschreiten.256Beliebiger positiver ganzzahliger Wert
PREDICTION_COLDieser Parameter gibt den Namen der Spalte an, die zum Speichern von Prognosen verwendet wird.„Prognose“Beliebige Zeichenfolge
SEEDDieser Parameter legt die im Modell verwendeten zufälligen Testadressen fest.KeineBeliebige 64-Bit-Zahl
WEIGHT_COLDieser Parameter gibt den Namen der Gewichtungsspalte an. Wenn dieser Parameter nicht festgelegt oder leer ist, werden alle Instanzgewichte als 1.0 behandelt.Nicht festgelegtBeliebige Zeichenfolge

Beispiel

CREATE MODEL modelname OPTIONS(
  type = 'decision_tree_regression'
) AS
  SELECT col1, col2, col3 FROM training-dataset

Factorization Machines Regression

Factorization Machines ist ein Regressionslernalgorithmus, der den normalen Gradientenabstieg und den AdamW-Solver unterstützt. Der Algorithmus basiert auf dem Aufsatz von S. Rendle (2010), "Factorization Machines.“

Parameter

In der folgenden Tabelle sind die wichtigsten Parameter für die Konfiguration und Optimierung der Leistung Factorization Machines Regression aufgeführt.

ParameterBeschreibungStandardwertMögliche Werte
TOLDieser Parameter legt die Konvergenztoleranz für den Algorithmus fest. Höhere Werte können zu einer schnelleren Konvergenz, aber weniger Präzision führen.1E-6(>= 0)
FACTOR_SIZEDieser Parameter definiert die Dimensionalität der Faktoren. Höhere Werte erhöhen die Modellkomplexität.8(>= 0)
FIT_INTERCEPTDieser Parameter gibt an, ob das Modell einen Abfangbegriff enthalten soll.truetrue, false
FIT_LINEARDieser Parameter gibt an, ob ein linearer Begriff (auch als 1-Wege-Begriff bezeichnet) in das Modell aufgenommen werden soll.truetrue, false
INIT_STDDieser Parameter definiert die Standardabweichung der anfänglichen Koeffizienten, die im Modell verwendet werden.0,01(>= 0)
MAX_ITERDieser Parameter gibt die maximale Anzahl von Iterationen für den auszuführenden Algorithmus an.100(>= 0)
MINI_BATCH_FRACTIONDieser Parameter legt den Teil des Mini-Batches fest, der den Teil der Daten bestimmt, der in jedem Batch verwendet wird. Sie muss im Bereich (0, 1] liegen.1,0(0, 1]
REG_PARAMDieser Parameter legt den Regularisierungsparameter fest, um eine Überanpassung zu verhindern.0,0(>= 0)
SEEDDieser Parameter gibt den zufälligen Seed an, der für die Modellinitialisierung verwendet wird.KeineBeliebige 64-Bit-Zahl
SOLVERDieser Parameter gibt den Solver-Algorithmus für die Optimierung an.„adamW“gd (Gefälle), adamW
STEP_SIZEDieser Parameter gibt die anfängliche Schrittgröße (oder Lernrate) für den ersten Optimierungsschritt an.1,0Beliebiger positiver Wert
PREDICTION_COLDieser Parameter gibt den Namen der Spalte an, in der Prognosen gespeichert werden.„Prognose“Beliebige Zeichenfolge

Beispiel

CREATE MODEL modelname OPTIONS(
  type = 'factorization_machines_regression'
) AS
  SELECT col1, col2, col3 FROM training-dataset

Generalized Linear Regression

Im Gegensatz zur linearen Regression, bei der davon ausgegangen wird, dass das Ergebnis einer normalen (Gauß'schen) Verteilung folgt, können Generalized Linear (GLMs) das Ergebnis je nach Art der Daten verschiedenen Verteilungstypen wie Poisson oder Binomialverteilung folgen lassen.

Parameter

In der folgenden Tabelle sind die wichtigsten Parameter für die Konfiguration und Optimierung der Leistung Generalized Linear Regression aufgeführt.

Parameter
Beschreibung
Standardwert
Mögliche Werte
MAX_ITER
Legt die maximale Anzahl von Iterationen fest (anwendbar bei Verwendung des irls).
25
(>= 0)
REG_PARAM
Der Regularisierungsparameter.
NICHT FESTGELEGT
(>= 0)
TOL
Die Konvergenztoleranz.
1E-6
(>= 0)
AGGREGATION_DEPTH
Die empfohlene Tiefe für treeAggregate.
2
(>= 2)
FAMILY
Der Parameter family, der die im Modell verwendete Fehlerverteilung beschreibt. Unterstützte Optionen sind gaussian, binomial, poisson, gamma und tweedie.
„Gaußsch“
gaussian, binomial, poisson, gamma, tweedie
FIT_INTERCEPT
Gibt an, ob ein Abfangbegriff eingefügt werden soll.
true
true, false
LINK
Die Verknüpfungsfunktion, die die Beziehung zwischen dem linearen Prädiktor und dem Mittelwert der Verteilungsfunktion definiert. Unterstützte Optionen sind identity, log, inverse, logit, probit, cloglog und sqrt.
NICHT FESTGELEGT
identity, log, inverse, logit, probit, cloglog, sqrt
LINK_POWER
Dieser Parameter gibt den Index der Powerlink-Funktion an. Der Parameter gilt nur für die Tweedie. Ist dies nicht festgelegt, wird standardmäßig 1 - variancePower verwendet, das dem R-statmod-Paket entspricht. Spezifische Link-Potenzen von 0, 1, -1 und 0,5 entsprechen den Log-, Identity-, Inverse- und SQRT-Links.
1
Beliebiger numerischer Wert
SOLVER
Der für die Optimierung verwendete Solver-Algorithmus. Unterstützte Option: irls (iterativ neu gewichtete Kleinste Quadrate).
„Mädchen“
irls
VARIANCE_POWER
Dieser Parameter gibt die Potenz der Varianzfunktion der Tweedie an und definiert die Beziehung zwischen Varianz und Mittelwert. Unterstützte Werte sind 0 und [1, inf). Varianzwerte von 0, 1 und 2 entsprechen den Gauß-, Poisson- bzw. Gamma-Familien.
0,0
0 [1, inf)
LINK_PREDICTION_COL
Der Spaltenname der Linkprädiktion (linearer Prädiktor).
NICHT FESTGELEGT
Beliebige Zeichenfolge
OFFSET_COL
Der Name der Versatzspalte. Ist kein Wert festgelegt, werden alle Instanzversätze als 0,0 behandelt. Die Offset-Funktion hat einen konstanten Koeffizienten von 1,0.
NICHT FESTGELEGT
Beliebige Zeichenfolge
WEIGHT_COL
Der Name der Gewichtungsspalte. Wenn sie nicht festgelegt oder leer ist, werden alle Instanzgewichte als 1.0 behandelt. In der Binomialfamilie entsprechen Gewichtungen der Anzahl der Versuche, und Nicht-Ganzzahlgewichte werden in der AIC-Berechnung gerundet.
NICHT FESTGELEGT
Beliebige Zeichenfolge

Beispiel

CREATE MODEL modelname OPTIONS(
  type = 'generalized_linear_reg'
) AS
  SELECT col1, col2, col3 FROM training-dataset

Gradient Boosted Tree Regression

Gradient-Boosted Trees (GBTs) sind eine effektive Methode zur Klassifizierung und Regression, die die Vorhersagen mehrerer Entscheidungsbäume kombiniert, um die Vorhersagegenauigkeit und die Modellleistung zu verbessern.

Parameter

In der folgenden Tabelle sind die wichtigsten Parameter für die Konfiguration und Optimierung der Leistung Gradient Boosted Tree Regression aufgeführt.

Parameter
Beschreibung
Standardwert
Mögliche Werte
MAX_BINS
Die maximale Anzahl von Klassen, die verwendet werden, um kontinuierliche Funktionen in diskrete Intervalle zu unterteilen, was dabei hilft, zu bestimmen, wie die Funktionen in jedem Entscheidungsbaum-Knoten aufgeteilt werden. Mehr Klassen bieten eine höhere Granularität.
32
Muss mindestens 2 sein und gleich oder größer als die Anzahl der Kategorien in einem kategorialen Merkmal sein.
CACHE_NODE_IDS
Wenn false, übergibt der Algorithmus Bäume an ausführende Benutzer, damit Instanzen mit Knoten abgeglichen werden. Wenn true, speichert der Algorithmus Knoten-IDs für jede Instanz zwischen. Caching kann das Training von tieferen Bäumen beschleunigen.
false
true, false
CHECKPOINT_INTERVAL
Gibt an, wie oft die zwischengespeicherten Knoten-IDs überprüft werden sollen. 10 bedeutet beispielsweise, dass der Cache alle 10 Iterationen überprüft wird.
10
(>= 1)
MAX_DEPTH
Die maximale Tiefe des Baums (nicht negativ). Zum Beispiel bedeutet 0 Tiefe 1 Blattknoten und Tiefe 1 bedeutet 1 interner Knoten mit 2 Blattknoten.
5
(>= 0)
MIN_INFO_GAIN
Der minimale Informationsgewinn, der erforderlich ist, damit eine Aufspaltung an einem Strukturknoten berücksichtigt wird.
0,0
(>= 0.0)
MIN_WEIGHT_FRACTION_PER_NODE
Der MindestBRUCHTEIL der gewichteten Stichprobenanzahl, den jedes Kind nach einer Aufspaltung aufweisen muss. Wenn der Bruchteil des Gesamtgewichts bei einem der untergeordneten Elemente diesen Wert unterschreitet, wird er verworfen.
0,0
(>= 0.0, <= 0.5)
MIN_INSTANCES_PER_NODE
Die Mindestanzahl von Instanzen, die jedes untergeordnete Element nach einer Aufspaltung aufweisen muss. Wenn eine Aufspaltung zu weniger Instanzen als diesen Wert führt, wird die Aufspaltung verworfen.
1
(>= 1)
MAX_MEMORY_IN_MB
Der maximale Speicher in MB, der der Histogrammaggregation zugeordnet ist. Wenn dieser Wert zu klein ist, wird pro Iteration nur ein Knoten aufgeteilt, und seine Aggregate können diese Größe überschreiten.
256
Beliebiger positiver ganzzahliger Wert
PREDICTION_COL
Der Spaltenname für die Prognoseausgabe.
„Prognose“
Beliebige Zeichenfolge
VALIDATION_INDICATOR_COL
Der Spaltenname, der angibt, ob jede Zeile für das Training oder die Validierung verwendet wird. false für Schulung und true zur Validierung.
NICHT FESTGELEGT
Beliebige Zeichenfolge
LEAF_COL
Der Spaltenname für Blattindizes. Der prognostizierte Blattindex jeder Instanz in jedem Baum, der durch Durchlaufen der Vorbestellung generiert wird.
""
Beliebige Zeichenfolge
FEATURE_SUBSET_STRATEGY
Dieser Parameter gibt die Anzahl der Funktionen an, die bei Aufspaltungen in jedem Strukturknoten berücksichtigt werden sollen.
„auto“
auto, all, onethird, sqrt, log2 oder ein Bruchteil zwischen 0 und 1,0
SEED
Der zufällige Startwert.
NICHT FESTGELEGT
Beliebige 64-Bit-Zahl
WEIGHT_COL
Der Spaltenname, z. B., Gewichtungen. Wenn sie nicht festgelegt oder leer ist, werden alle Instanzgewichte als 1.0 behandelt.
NICHT FESTGELEGT
Beliebige Zeichenfolge
LOSS_TYPE
Dieser Parameter gibt die Verlustfunktion an, die das Gradient Boosted Tree minimiert.
„quadriert“
squared (L2) und absolute (L1). Hinweis: Bei Werten wird nicht zwischen Groß- und Kleinschreibung unterschieden.
STEP_SIZE
Die Schrittgröße (auch als Lernrate bezeichnet) im Bereich (0, 1], die zum Verkleinern des Beitrags jeder Schätzung verwendet wird.
0,1
(0, 1]
MAX_ITER
Die maximale Anzahl von Iterationen für den Algorithmus.
20
(>= 0)
SUBSAMPLING_RATE
Der Teil der Trainingsdaten, der zum Erlernen der einzelnen Entscheidungsbäume verwendet wird, im Bereich (0, 1].
1,0
(0, 1]

Beispiel

CREATE MODEL modelname OPTIONS(
  type = 'gradient_boosted_tree_regression'
) AS
  SELECT col1, col2, col3 FROM training-dataset

Isotonic Regression

Isotonic Regression ist ein Algorithmus, der verwendet wird, um Entfernungen iterativ anzupassen und dabei die relative Reihenfolge der Unterschiede in den Daten beizubehalten.

Parameter

In der folgenden Tabelle sind die wichtigsten Parameter zur Konfiguration und Optimierung der Leistung von Isotonic Regression aufgeführt.

Parameter
Beschreibung
Standardwert
Mögliche Werte
ISOTONIC
Gibt an, ob die Ausgabesequenz beim true isotonisch (ansteigend) oder beim false antitonisch (absteigend) sein soll.
true
true, false
WEIGHT_COL
Der Spaltenname, z. B., Gewichtungen. Wenn sie nicht festgelegt oder leer ist, werden alle Instanzgewichte als 1.0 behandelt.
NICHT FESTGELEGT
Beliebige Zeichenfolge
PREDICTION_COL
Der Spaltenname für die Prognoseausgabe.
„Prognose“
Beliebige Zeichenfolge
FEATURE_INDEX
Der Index der Funktion, der angewendet wird, wenn featuresCol eine Vektorspalte ist. Wenn nicht festgelegt, lautet der Standardwert 0. Andernfalls hat es keine Wirkung.
0
Beliebige nicht negative Ganzzahl

Beispiel

CREATE MODEL modelname OPTIONS(
  type = 'isotonic_regression'
) AS
  SELECT col1, col2, col3 FROM training-dataset

Linear Regression

Linear Regression ist ein überwachter Algorithmus für maschinelles Lernen, der eine lineare Gleichung an Daten anpasst, um die Beziehung zwischen einer abhängigen Variablen und unabhängigen Funktionen zu modellieren.

Parameter

In der folgenden Tabelle sind die wichtigsten Parameter zur Konfiguration und Optimierung der Leistung von Linear Regression aufgeführt.

Parameter
Beschreibung
Standardwert
Mögliche Werte
MAX_ITER
Die maximale Anzahl von Iterationen.
100
(>= 0)
REGPARAM
Der Regularisierungsparameter, mit dem die Komplexität des Modells gesteuert wird.
0,0
(>= 0)
ELASTICNETPARAM
Der ElasticNet-Mischparameter, der das Gleichgewicht zwischen L1 (Lasso)- und L2 (Ridge)-Strafen steuert. Bei einem Wert von 0 wird eine L2-Strafe angewendet, während bei einem Wert von 1 eine L1-Strafe angewendet wird.
0,0
(>= 0, <= 1)

Beispiel

CREATE MODEL modelname OPTIONS(
  type = 'linear_reg'
) AS
  SELECT col1, col2, col3 FROM training-dataset

Random Forest Regression

Random Forest Regression ist ein Ensemble-Algorithmus, der während des Trainings mehrere Entscheidungsbäume erstellt und die durchschnittliche Prognose dieser Bäume für Regressionsaufgaben zurückgibt, um eine Überanpassung zu vermeiden.

Parameter

In der folgenden Tabelle sind die wichtigsten Parameter zur Konfiguration und Optimierung der Leistung von Random Forest Regression aufgeführt.

Parameter
Beschreibung
Standardwert
Mögliche Werte
MAX_BINS
Die maximale Anzahl von Klassen, die verwendet werden, um fortlaufende KEs zu diskretisieren und zu bestimmen, wie die KEs an jedem Knoten aufgeteilt werden. Mehr Klassen bieten eine höhere Granularität.
32
Muss mindestens 2 und mindestens gleich der Anzahl der Kategorien in einem kategorialen Merkmal sein.
CACHE_NODE_IDS
Wenn false, übergibt der Algorithmus Bäume an ausführende Benutzer, damit Instanzen mit Knoten abgeglichen werden. Wenn true, speichert der Algorithmus Knoten-IDs für jede Instanz zwischen, wodurch das Training tiefer stehender Baumstrukturen beschleunigt wird.
false
true, false
CHECKPOINT_INTERVAL
Gibt an, wie oft die zwischengespeicherten Knoten-IDs überprüft werden sollen. 10 bedeutet beispielsweise, dass der Cache alle 10 Iterationen überprüft wird.
10
(>= 1)
IMPURITY
Das Kriterium für die Berechnung des Informationsgewinns (ohne Unterscheidung zwischen Groß- und Kleinschreibung).
„Entropie“
entropy, gini
MAX_DEPTH
Die maximale Tiefe des Baums (nicht negativ). Beispielsweise bedeutet 0 Tiefe 1 Blattknoten und Tiefe 1 bedeutet 1 interner Knoten und 2 Blattknoten.
5
Beliebige nicht negative Ganzzahl
MIN_INFO_GAIN
Der minimale Informationsgewinn, der erforderlich ist, damit eine Aufspaltung an einem Strukturknoten berücksichtigt wird.
0,0
(>= 0.0)
MIN_WEIGHT_FRACTION_PER_NODE
Der MindestBRUCHTEIL der gewichteten Stichprobenanzahl, den jedes Kind nach einer Aufspaltung aufweisen muss. Wenn der Bruchteil des Gesamtgewichts bei einem der untergeordneten Elemente diesen Wert unterschreitet, wird er verworfen.
0,0
(>= 0.0, <= 0.5)
MIN_INSTANCES_PER_NODE
Die Mindestanzahl von Instanzen, die jedes untergeordnete Element nach einer Aufspaltung aufweisen muss. Wenn eine Aufspaltung zu weniger Instanzen als diesen Wert führt, wird die Aufspaltung verworfen.
1
(>= 1)
MAX_MEMORY_IN_MB
Der maximale Speicher in MB, der der Histogrammaggregation zugeordnet ist. Wenn dieser Wert zu klein ist, wird pro Iteration nur ein Knoten aufgeteilt, und seine Aggregate können diese Größe überschreiten.
256
(>= 1)
BOOTSTRAP
Ob beim Erstellen von Bäumen Bootstrap-Beispiele verwendet werden sollen.
WAHR
true, false
NUM_TREES
Die Anzahl der zu trainierenden Bäume (mindestens 1). Wenn 1, wird kein Bootstrapping durchgeführt. Wenn größer als 1, wird Bootstrapping angewendet.
20
(>= 1)
SUBSAMPLING_RATE
Der Teil der Trainingsdaten, der zum Trainieren der einzelnen Entscheidungsbäume verwendet wird, im Bereich (0, 1].
1,0
(>= 0.0, <= 1)
LEAF_COL
Der Spaltenname für Blattindizes, der der prognostizierte Blattindex jeder Instanz in jedem Baum ist, der durch Durchlaufen der Vorbestellung generiert wird.
""
Beliebige Zeichenfolge
PREDICTION_COL
Der Spaltenname für die Prognoseausgabe.
„Prognose“
Beliebige Zeichenfolge
SEED
Der zufällige Startwert.
NICHT FESTGELEGT
Beliebige 64-Bit-Zahl
WEIGHT_COL
Der Spaltenname, z. B., Gewichtungen. Wenn sie nicht festgelegt oder leer ist, werden alle Instanzgewichte als 1.0 behandelt.
NICHT FESTGELEGT
Ein gültiger Spaltenname oder leer lassen.

Beispiel

CREATE MODEL modelname OPTIONS(
  type = 'random_forest_regression'
) AS
  SELECT col1, col2, col3 FROM training-dataset

Survival Regression

Survival Regression wird verwendet, um ein parametrisches Überlebens-Regressionsmodell einzupassen, das als Accelerated Failure Time (AFT)-Modell bezeichnet wird und auf der Weibull distribution basiert. Zur Leistungssteigerung können Instanzen in Blöcken gestapelt werden.

Parameter

In der folgenden Tabelle sind die wichtigsten Parameter zur Konfiguration und Optimierung der Leistung von Survival Regression aufgeführt.

Parameter
Beschreibung
Standardwert
Mögliche Werte
MAX_ITER
Die maximale Anzahl von Iterationen, die der Algorithmus ausführen soll.
100
(>= 0)
TOL
Die Konvergenztoleranz.
1E-6
(>= 0)
AGGREGATION_DEPTH
Die empfohlene Tiefe für treeAggregate. Wenn die Elementabmessungen oder die Anzahl der Partitionen groß sind, kann dieser Parameter auf einen größeren Wert gesetzt werden.
2
(>= 2)
FIT_INTERCEPT
Gibt an, ob ein Abfangbegriff eingefügt werden soll.
WAHR
true, false
PREDICTION_COL
Der Spaltenname für die Prognoseausgabe.
„Prognose“
Beliebige Zeichenfolge
CENSOR_COL
Der Spaltenname für die Zensur. Der Wert 1 bedeutet, dass das Ereignis aufgetreten ist (unzensiert), während 0 bedeutet, dass das Ereignis zensiert wurde.
„Zensor“
0, 1
MAX_BLOCK_SIZE_IN_MB
Der maximale Speicher in MB für das Stapeln von Eingabedaten in Blöcken. Wenn die verbleibende Datengröße in einer Partition kleiner ist, wird dieser Wert entsprechend angepasst. Der Wert 0 ermöglicht eine automatische Anpassung.
0,0
(>= 0)

Beispiel

CREATE MODEL modelname OPTIONS(
  type = 'survival_regression'
) AS
  SELECT col1, col2, col3 FROM training-dataset

Nächste Schritte

Nach dem Lesen dieses Dokuments wissen Sie jetzt, wie Sie verschiedene Regressionsalgorithmen konfigurieren und verwenden können. Weitere Informationen zu anderen Typen erweiterter statistischer Modelle finden in den DokumentenKlassifizierung und Clustering.

recommendation-more-help
ccf2b369-4031-483f-af63-a93b5ae5e3fb