Modellerstellung mit dem Adobe Experience Platform Platform SDK
Diese Anleitung bietet Ihnen Informationen zum Konvertieren von data_access_sdk_python
in das neue Python platform_sdk
in sowohl Python als auch R. Diese Anleitung enthält Informationen zu den folgenden Vorgängen:
Authentifizierung erstellen build-authentication
Authentifizierung ist erforderlich, um Adobe Experience Platform aufzurufen. Sie umfasst API-Schlüssel, Organisations-ID, ein Benutzer-Token und ein Service-Token.
Python
Wenn Sie Jupyter Notebook verwenden, nutzen Sie den folgenden Code, um den client_context
zu erstellen:
client_context = PLATFORM_SDK_CLIENT_CONTEXT
Wenn Sie kein Jupyter Notebook verwenden oder die Organisation ändern müssen, verwenden Sie das folgende Codebeispiel:
from platform_sdk.client_context import ClientContext
client_context = ClientContext(api_key={API_KEY},
org_id={ORG_ID},
user_token={USER_TOKEN},
service_token={SERVICE_TOKEN})
R
Wenn Sie Jupyter Notebook verwenden, nutzen Sie den folgenden Code, um den client_context
zu erstellen:
library(reticulate)
use_python("/usr/local/bin/ipython")
psdk <- import("platform_sdk")
py_run_file("../.ipython/profile_default/startup/platform_sdk_context.py")
client_context <- py$PLATFORM_SDK_CLIENT_CONTEXT
Wenn Sie kein Jupyter Notebook verwenden oder die Organisation ändern müssen, verwenden Sie das folgende Codebeispiel:
library(reticulate)
use_python("/usr/local/bin/ipython")
psdk <- import("platform_sdk")
client_context <- psdk$client_context$ClientContext(api_key={API_KEY},
org_id={ORG_ID},
user_token={USER_TOKEN},
service_token={SERVICE_TOKEN})
Grundlegendes Datenlesen basic-reading-of-data
Mit dem neuen SDK Platform beträgt die maximale Lesegröße 32 GB mit einer maximalen Lesedauer von 10 Minuten.
Wenn das Lesen zu lange dauert, können Sie eine der folgenden Filteroptionen verwenden:
client_context
festgelegt.Python
Zum Lesen von Daten in Python verwenden Sie bitte das folgende Code-Beispiel:
from platform_sdk.dataset_reader import DatasetReader
dataset_reader = DatasetReader(client_context, "{DATASET_ID}")
df = dataset_reader.limit(100).read()
df.head()
R
Zum Lesen von Daten in R verwenden Sie bitte das folgende Code-Beispiel:
DatasetReader <- psdk$dataset_reader$DatasetReader
dataset_reader <- DatasetReader(client_context, "{DATASET_ID}")
df <- dataset_reader$read()
df
Nach Offset und Limit filtern filter-by-offset-and-limit
Da das Filtern nach Batch-Kennung nicht mehr unterstützt wird, müssen Sie zum Begrenzen des Datenlesens offset
und limit
verwenden.
Python
df = dataset_reader.limit(100).offset(1).read()
df.head
R
df <- dataset_reader$limit(100L)$offset(1L)$read()
df
Nach Datum filtern filter-by-date
Die Granularität der Datumsfilterung wird jetzt durch den Zeitstempel definiert und nicht mehr durch den Tag.
Python
df = dataset_reader.where(\
dataset_reader['timestamp'].gt('2019-04-10 15:00:00').\
And(dataset_reader['timestamp'].lt('2019-04-10 17:00:00'))\
).read()
df.head()
R
df2 <- dataset_reader$where(
dataset_reader['timestamp']$gt('2018-12-10 15:00:00')$
And(dataset_reader['timestamp']$lt('2019-04-10 17:00:00'))
)$read()
df2
Das neue Platform SDK unterstützt die folgenden Vorgänge:
=
)eq()
>
)gt()
>=
)ge()
<
)lt()
<=
)le()
&
)And()
Nach ausgewählten Spalten filtern filter-by-selected-columns
Zur weiteren Verfeinerung des Datenlesens können Sie auch nach Spaltennamen filtern.
Python
df = dataset_reader.select(['column-a','column-b']).read()
R
df <- dataset_reader$select(c('column-a','column-b'))$read()
Sortierte Ergebnisse abrufen get-sorted-results
Die erhaltenen Ergebnisse können nach bestimmten Spalten des Zieldatensatzes und in ihrer Reihenfolge (aufsteigend/absteigend) sortiert werden.
Im folgenden Beispiel wird Dataframe zuerst in aufsteigender Reihenfolge nach „column-a“ sortiert. Zeilen mit den gleichen Werten für „column-a“ werden dann in absteigender Reihenfolge nach „column-b“ sortiert.
Python
df = dataset_reader.sort([('column-a', 'asc'), ('column-b', 'desc')])
R
df <- dataset_reader$sort(c(('column-a', 'asc'), ('column-b', 'desc')))$read()
Grundlegendes Datenschreiben basic-writing-of-data
client_context
festgelegt.Um Daten in Python und R zu schreiben, verwenden Sie eines der folgenden Beispiele:
Python
from platform_sdk.models import Dataset
from platform_sdk.dataset_writer import DatasetWriter
dataset = Dataset(client_context).get_by_id("{DATASET_ID}")
dataset_writer = DatasetWriter(client_context, dataset)
write_tracker = dataset_writer.write({PANDA_DATAFRAME}, file_format='json')
R
dataset <- psdk$models$Dataset(client_context)$get_by_id("{DATASET_ID}")
dataset_writer <- psdk$dataset_writer$DatasetWriter(client_context, dataset)
write_tracker <- dataset_writer$write({PANDA_DATAFRAME}, file_format='json')
Nächste Schritte
Nachdem Sie den platform_sdk
-Data-Loader konfiguriert haben, werden die Daten vorbereitet und auf die Datensätze train
und val
aufgeteilt. Informationen zur Datenvorbereitung und Funktionsentwicklung finden Sie im Abschnitt zur Datenvorbereitung und Funktionsentwicklung im Tutorial zum Erstellen eines Rezepts mit JupyterLab Notebooks.