Modellerstellungs-SDK
Mit dem Model Authoring SDK können Sie benutzerdefinierte Rezepte für maschinelles Lernen und Funktions-Pipelines entwickeln, die in Adobe Experience Platform Data Science Workspace verwendet werden können, und implementierbare Vorlagen in PySpark und Spark (Scala) bereitstellen.
Dieses Dokument enthält Informationen zu den verschiedenen Klassen im Model Authoring SDK.
DataLoader dataloader
Die DataLoader-Klasse enthält alles, was zum Abrufen, Filtern und Zurückgeben von rohen Eingabedaten benötigt wird. Beispiele für Eingabedaten sind Daten für Training, Scoring oder Funktionsentwicklung. Datenlader erweitern die abstrakte Klasse DataLoader
und müssen die abstrakte Methode load
überschreiben.
PySpark
In der folgenden Tabelle werden die abstrakten Methoden einer PySpark-Datenlader-Klasse beschrieben:
load(self, configProperties, spark)
Platform-Daten als Pandas-DataFrame laden und zurückgeben
self
: EigenverweisconfigProperties
: Zuordnung von Konfigurationseigenschaftenspark
: Spark-Sitzung
Spark
In der folgenden Tabelle werden die abstrakten Methoden einer Spark Data Loader-Klasse beschrieben:
load(configProperties, sparkSession)
Platform-Daten als DataFrame laden und zurückgeben
configProperties
: Zuordnung von KonfigurationseigenschaftensparkSession
: Spark-Sitzung
Daten aus einem Platform -Datensatz laden load-data-from-a-platform-dataset
Im folgenden Beispiel werden Platform -Daten nach ID abgerufen und ein DataFrame zurückgegeben, wobei die Datensatz-ID (datasetId
) eine definierte Eigenschaft in der Konfigurationsdatei ist.
PySpark
# PySpark
from sdk.data_loader import DataLoader
class MyDataLoader(DataLoader):
"""
Implementation of DataLoader which loads a DataFrame and prepares data
"""
def load_dataset(config_properties, spark, task_id):
PLATFORM_SDK_PQS_PACKAGE = "com.adobe.platform.query"
PLATFORM_SDK_PQS_INTERACTIVE = "interactive"
# prepare variables
service_token = str(spark.sparkContext.getConf().get("ML_FRAMEWORK_IMS_ML_TOKEN"))
user_token = str(spark.sparkContext.getConf().get("ML_FRAMEWORK_IMS_TOKEN"))
org_id = str(spark.sparkContext.getConf().get("ML_FRAMEWORK_IMS_ORG_ID"))
api_key = str(spark.sparkContext.getConf().get("ML_FRAMEWORK_IMS_CLIENT_ID"))
dataset_id = str(config_properties.get(task_id))
# validate variables
for arg in ['service_token', 'user_token', 'org_id', 'dataset_id', 'api_key']:
if eval(arg) == 'None':
raise ValueError("%s is empty" % arg)
# load dataset through Spark session
query_options = get_query_options(spark.sparkContext)
pd = spark.read.format(PLATFORM_SDK_PQS_PACKAGE) \
.option(query_options.userToken(), user_token) \
.option(query_options.serviceToken(), service_token) \
.option(query_options.imsOrg(), org_id) \
.option(query_options.apiKey(), api_key) \
.option(query_options.mode(), PLATFORM_SDK_PQS_INTERACTIVE) \
.option(query_options.datasetId(), dataset_id) \
.load()
pd.show()
# return as DataFrame
return pd
Spark (Scala)
// Spark
package com.adobe.platform.ml
import java.time.LocalDateTime
import com.adobe.platform.ml.config.ConfigProperties
import com.adobe.platform.query.QSOption
import org.apache.spark.ml.feature.StringIndexer
import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types.{StructType, TimestampType}
import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.sql.Column
/**
* Implementation of DataLoader which loads a DataFrame and prepares data
*/
class MyDataLoader extends DataLoader {
final val PLATFORM_SDK_PQS_PACKAGE: String = "com.adobe.platform.query"
final val PLATFORM_SDK_PQS_INTERACTIVE: String = "interactive"
final val PLATFORM_SDK_PQS_BATCH: String = "batch"
/**
*
* @param configProperties - Configuration Properties map
* @param sparkSession - SparkSession
* @return - DataFrame which is loaded for training
*/
def load_dataset(configProperties: ConfigProperties, sparkSession: SparkSession, taskId: String): DataFrame = {
require(configProperties != null)
require(sparkSession != null)
// Read the configs
val serviceToken: String = sparkSession.sparkContext.getConf.get("ML_FRAMEWORK_IMS_ML_TOKEN", "").toString
val userToken: String = sparkSession.sparkContext.getConf.get("ML_FRAMEWORK_IMS_TOKEN", "").toString
val orgId: String = sparkSession.sparkContext.getConf.get("ML_FRAMEWORK_IMS_ORG_ID", "").toString
val apiKey: String = sparkSession.sparkContext.getConf.get("ML_FRAMEWORK_IMS_CLIENT_ID", "").toString
val dataSetId: String = configProperties.get(taskId).getOrElse("")
// Load the dataset
var df = sparkSession.read.format(PLATFORM_SDK_PQS_PACKAGE)
.option(QSOption.userToken, userToken)
.option(QSOption.serviceToken, serviceToken)
.option(QSOption.imsOrg, orgId)
.option(QSOption.apiKey, apiKey)
.option(QSOption.mode, PLATFORM_SDK_PQS_INTERACTIVE)
.option(QSOption.datasetId, dataSetId)
.load()
df.show()
df
}
}
DataSaver datasaver
Die DataSaver-Klasse enthält alles, was mit dem Speichern von Ausgabedaten zu tun hat, einschließlich Daten für Scoring oder Funktionsentwicklung. Data Saver erweitern die abstrakte Klasse DataSaver
und müssen die abstrakte Methode save
überschreiben.
PySpark
In der folgenden Tabelle werden die abstrakten Methoden einer PySpark Data Saver-Klasse beschrieben:
save(self, configProperties, dataframe)
Ausgabedaten als DataFrame empfangen und in einem Platform-Datensatz speichern
self
: EigenverweisconfigProperties
: Zuordnung von Konfigurationseigenschaftendataframe
: Daten, die in Form eines DataFrame gespeichert werden sollen
Spark (Scala)
In der folgenden Tabelle werden die abstrakten Methoden einer Spark Data Saver-Klasse beschrieben:
save(configProperties, dataFrame)
Ausgabedaten als DataFrame empfangen und in einem Platform-Datensatz speichern
configProperties
: Zuordnung von KonfigurationseigenschaftendataFrame
: Daten, die in Form eines DataFrame gespeichert werden sollen
Daten in einem Platform -Datensatz speichern save-data-to-a-platform-dataset
Um Daten in einem Platform -Datensatz zu speichern, müssen die Eigenschaften entweder bereitgestellt oder in der Konfigurationsdatei definiert werden:
- Eine gültige Platform Datensatz-ID, in der Daten gespeichert werden
- Die Mandanten-ID in Ihrer Organisation
Die folgenden Beispiele speichern Daten (prediction
) in einem Platform -Datensatz, wobei die Datensatz-ID (datasetId
) und die Mandanten-ID (tenantId
) definierte Eigenschaften in der Konfigurationsdatei sind.
PySpark
# PySpark
from sdk.data_saver import DataSaver
from pyspark.sql.types import StringType, TimestampType
from pyspark.sql.functions import col, lit, struct
from .helper import *
class MyDataSaver(DataSaver):
"""
Implementation of DataSaver which stores a DataFrame to a Platform dataset
"""
def save(self, config_properties, prediction):
# Spark context
sparkContext = prediction._sc
# preliminary checks
if config_properties is None:
raise ValueError("config_properties parameter is null")
if prediction is None:
raise ValueError("prediction parameter is null")
if sparkContext is None:
raise ValueError("sparkContext parameter is null")
PLATFORM_SDK_PQS_PACKAGE = "com.adobe.platform.query"
# prepare variables
scored_dataset_id = str(config_properties.get("scoringResultsDataSetId"))
tenant_id = str(config_properties.get("tenant_id"))
timestamp = "2019-01-01 00:00:00"
service_token = str(sparkContext.getConf().get("ML_FRAMEWORK_IMS_ML_TOKEN"))
user_token = str(sparkContext.getConf().get("ML_FRAMEWORK_IMS_TOKEN"))
org_id = str(sparkContext.getConf().get("ML_FRAMEWORK_IMS_ORG_ID"))
api_key = str(sparkContext.getConf().get("ML_FRAMEWORK_IMS_CLIENT_ID"))
# validate variables
for arg in ['service_token', 'user_token', 'org_id', 'scored_dataset_id', 'api_key', 'tenant_id']:
if eval(arg) == 'None':
raise ValueError("%s is empty" % arg)
scored_df = prediction.withColumn("date", col("date").cast(StringType()))
scored_df = scored_df.withColumn(tenant_id, struct(col("date"), col("store"), col("prediction")))
scored_df = scored_df.withColumn("timestamp", lit(timestamp).cast(TimestampType()))
scored_df = scored_df.withColumn("_id", lit("empty"))
scored_df = scored_df.withColumn("eventType", lit("empty")
# store data into dataset
query_options = get_query_options(sparkContext)
scored_df.select(tenant_id, "_id", "eventType", "timestamp").write.format(PLATFORM_SDK_PQS_PACKAGE) \
.option(query_options.userToken(), user_token) \
.option(query_options.serviceToken(), service_token) \
.option(query_options.imsOrg(), org_id) \
.option(query_options.apiKey(), api_key) \
.option(query_options.datasetId(), scored_dataset_id) \
.save()
Spark (Scala)
// Spark
package com.adobe.platform.ml
import com.adobe.platform.ml.config.ConfigProperties
import com.adobe.platform.ml.impl.Constants
import com.adobe.platform.ml.sdk.DataSaver
import com.adobe.platform.query.QSOption
import org.apache.spark.sql.DataFrame
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types.TimestampType
/**
* Implementation of DataSaver which stores a DataFrame to a Platform dataset
*/
class ScoringDataSaver extends DataSaver {
final val PLATFORM_SDK_PQS_PACKAGE: String = "com.adobe.platform.query"
final val PLATFORM_SDK_PQS_BATCH: String = "batch"
/**
* Method that saves the scoring data into a dataframe
* @param configProperties - Configuration Properties map
* @param dataFrame - Dataframe with the scoring results
*/
override def save(configProperties: ConfigProperties, dataFrame: DataFrame): Unit = {
require(configProperties != null)
require(dataFrame != null)
val predictionColumn = configProperties.get(Constants.PREDICTION_COL).getOrElse(Constants.DEFAULT_PREDICTION)
val sparkSession = dataFrame.sparkSession
val serviceToken: String = sparkSession.sparkContext.getConf.get("ML_FRAMEWORK_IMS_ML_TOKEN", "").toString
val userToken: String = sparkSession.sparkContext.getConf.get("ML_FRAMEWORK_IMS_TOKEN", "").toString
val orgId: String = sparkSession.sparkContext.getConf.get("ML_FRAMEWORK_IMS_ORG_ID", "").toString
val apiKey: String = sparkSession.sparkContext.getConf.get("ML_FRAMEWORK_IMS_CLIENT_ID", "").toString
val tenantId:String = configProperties.get("tenantId").getOrElse("")
val timestamp:String = "2019-01-01 00:00:00"
val scoringResultsDataSetId: String = configProperties.get("scoringResultsDataSetId").getOrElse("")
import sparkSession.implicits._
var df = dataFrame.withColumn("date", $"date".cast("String"))
var scored_df = df.withColumn(tenantId, struct(df("date"), df("store"), df(predictionColumn)))
scored_df = scored_df.withColumn("timestamp", lit(timestamp).cast(TimestampType))
scored_df = scored_df.withColumn("_id", lit("empty"))
scored_df = scored_df.withColumn("eventType", lit("empty"))
scored_df.select(tenantId, "_id", "eventType", "timestamp").write.format(PLATFORM_SDK_PQS_PACKAGE)
.option(QSOption.userToken, userToken)
.option(QSOption.serviceToken, serviceToken)
.option(QSOption.imsOrg, orgId)
.option(QSOption.apiKey, apiKey)
.option(QSOption.datasetId, scoringResultsDataSetId)
.save()
}
}
DatasetTransformer datasettransformer
Die DatasetTransformer-Klasse ändert und transformiert die Struktur eines Datensatzes. Die Sensei Machine Learning Runtime erfordert nicht, dass diese Komponente definiert ist, und wird entsprechend Ihren Anforderungen implementiert.
Im Hinblick auf eine Funktions-Pipeline können DataSet Transformer gemeinsam mit einer Feature-Pipeline-Factory zur Vorbereitung von Daten für die Funktionsentwicklung genutzt werden.
PySpark
In der folgenden Tabelle werden die Klassenmethoden einer PySpark-DataSet Transformer-Klasse beschrieben:
abstracttransform(self, configProperties, dataset)
Nimmt einen Datensatz als Eingabe und gibt einen neuen abgeleiteten Datensatz aus
self
: EigenverweisconfigProperties
: Zuordnung von Konfigurationseigenschaftendataset
: Der Eingabedatensatz für die Transformation
Spark (Scala)
In der folgenden Tabelle werden die abstrakten Methoden einer Spark -Datensatz-Transformatorklasse beschrieben:
transform(configProperties, dataset)
Nimmt einen Datensatz als Eingabe und gibt einen neuen abgeleiteten Datensatz aus
configProperties
: Zuordnung von Konfigurationseigenschaftendataset
: Der Eingabedatensatz für die Transformation
FeaturePipelineFactory featurepipelinefactory
Die FeaturePipelineFactory-Klasse enthält Extraktionsalgorithmen für Funktionen und definiert die Phasen einer Funktions-Pipeline von Anfang bis Ende.
PySpark
In der folgenden Tabelle werden die Klassenmethoden einer PySpark-FeaturePipelineFactory beschrieben:
abstractcreate_pipeline(self, configProperties)
Spark-Pipeline erstellen und zurückgeben, die eine Reihe von Spark-Transformern enthält
self
: EigenverweisconfigProperties
: Zuordnung von Konfigurationseigenschaften
abstractget_param_map(self, configProperties, sparkSession)
Parameter-Mapping aus Konfigurationseigenschaften abrufen und zurückgeben
self
: EigenverweisconfigProperties
: KonfigurationseigenschaftensparkSession
: Spark-Sitzung
Spark (Scala)
In der folgenden Tabelle werden die Klassenmethoden einer Spark FeaturePipelineFactory beschrieben:
abstractcreatePipeline(configProperties)
Pipeline mit einer Reihe von Umwandlern erstellen und zurückgeben
configProperties
: Zuordnung von Konfigurationseigenschaften
abstractgetParamMap(configProperties, sparkSession)
Parameter-Mapping aus Konfigurationseigenschaften abrufen und zurückgeben
configProperties
: KonfigurationseigenschaftensparkSession
: Spark-Sitzung
PipelineFactory pipelinefactory
Die PipelineFactory-Klasse enthält Methoden und Definitionen für Trainings- und Scoring-Modelle, wobei Trainings-Logik und -Algorithmen in Form einer Spark-Pipeline definiert werden.
PySpark
Die folgende Tabelle beschreibt die Klassenmethoden einer PySpark-PipelineFactory:
abstractapply(self, configProperties)
Spark-Pipeline erstellen und zurückgeben, die die Logik und den Algorithmus für das Trainieren und Bewerten von Modellen enthält
self
: EigenverweisconfigProperties
: Konfigurationseigenschaften
abstracttrain(self, configProperties, dataframe)
Benutzerdefinierte Pipeline zurückgeben, die die Logik und den Algorithmus zum Trainieren eines Modells enthält. Diese Methode ist nicht erforderlich, wenn eine Spark-Pipeline verwendet wird
self
: EigenverweisconfigProperties
: Konfigurationseigenschaftendataframe
: Funktionsdatensatz für Trainings-Eingabe
abstractscore(self, configProperties, dataframe, model)
Mit dem trainierten Modell bewerten und die Ergebnisse zurückgeben
self
: EigenverweisconfigProperties
: Konfigurationseigenschaftendataframe
: Eingabedatensatz für Scoringmodel
: Ein trainiertes Modell, das zum Scoring verwendet wird
abstractget_param_map(self, configProperties, sparkSession)
Parameter-Mapping aus Konfigurationseigenschaften abrufen und zurückgeben
self
: EigenverweisconfigProperties
: KonfigurationseigenschaftensparkSession
: Spark-Sitzung
Spark (Scala)
In der folgenden Tabelle werden die Klassenmethoden einer Spark PipelineFactory beschrieben:
abstractapply(configProperties)
Pipeline erstellen und zurückgeben, die die Logik und den Algorithmus für das Trainieren und Bewerten von Modellen enthält
configProperties
: Konfigurationseigenschaften
abstractgetParamMap(configProperties, sparkSession)
Parameter-Mapping aus Konfigurationseigenschaften abrufen und zurückgeben
configProperties
: KonfigurationseigenschaftensparkSession
: Spark-Sitzung
MLEvaluator mlevaluator
Die MLEvaluator-Klasse stellt Methoden zum Definieren von Auswertungsmetriken und zum Festlegen von Trainings- und Testdatensätzen bereit.
PySpark
In der folgenden Tabelle werden die Klassenmethoden eines PySpark-MLEvaluator beschrieben:
abstractsplit(self, configProperties, dataframe)
Teilt den Eingabedatensatz in Trainings- und Testuntergruppen
self
: EigenverweisconfigProperties
: Konfigurationseigenschaftendataframe
: Zu teilender Eingabedatensatz
abstractevaluate(self, dataframe, model, configProperties)
Wertet ein trainiertes Modell aus und gibt die Auswertungsergebnisse zurück
self
: Eigenverweisdataframe
: Ein DataFrame, bestehend aus Trainings- und Testdatenmodel
: Ein trainiertes ModellconfigProperties
: Konfigurationseigenschaften
Spark (Scala)
In der folgenden Tabelle werden die Klassenmethoden eines Spark MLEvaluator beschrieben:
abstractsplit(configProperties, data)
Teilt den Eingabedatensatz in Trainings- und Testuntergruppen
configProperties
: Konfigurationseigenschaftendata
: Zu teilender Eingabedatensatz
abstractevaluate(configProperties, model, data)
Wertet ein trainiertes Modell aus und gibt die Auswertungsergebnisse zurück
configProperties
: Konfigurationseigenschaftenmodel
: Ein trainiertes Modelldata
: Ein DataFrame, bestehend aus Trainings- und Testdaten