Platform SDK-Handbuch

Diese Anleitung bietet Ihnen Informationen zum Konvertieren von data_access_sdk_python in das neue Python platform_sdk in sowohl Python als auch R. Diese Anleitung enthält Informationen zu den folgenden Vorgängen:

Authentifizierung erstellen

Authentication is required to make calls to Adobe Experience Platform, and is comprised of API Key, IMS Org ID, a user token, and a service token.

Python

Wenn Sie Jupyter Notebook verwenden, nutzen Sie den folgenden Code, um den client_context zu erstellen:

client_context = PLATFORM_SDK_CLIENT_CONTEXT

Wenn Sie kein Jupyter Notebook verwenden oder die IMS-Org ändern müssen, nutzen Sie das folgende Code-Beispiel:

from platform_sdk.client_context import ClientContext
client_context = ClientContext(api_key={API_KEY},
              org_id={IMS_ORG},
              user_token={USER_TOKEN},
              service_token={SERVICE_TOKEN})

R

Wenn Sie Jupyter Notebook verwenden, nutzen Sie den folgenden Code, um den client_context zu erstellen:

library(reticulate)
use_python("/usr/local/bin/ipython")
psdk <- import("platform_sdk")

py_run_file("../.ipython/profile_default/startup/platform_sdk_context.py")
client_context <- py$PLATFORM_SDK_CLIENT_CONTEXT

Wenn Sie kein Jupyter Notebook verwenden oder die IMS-Org ändern müssen, nutzen Sie das folgende Code-Beispiel:

library(reticulate)
use_python("/usr/local/bin/ipython")
psdk <- import("platform_sdk")
client_context <- psdk$client_context$ClientContext(api_key={API_KEY},
              org_id={IMS_ORG},
              user_token={USER_TOKEN},
              service_token={SERVICE_TOKEN})

Grundlegendes Datenlesen

With the new Platform SDK, the maximum read size is 32 GB, with a maximum read time of 10 minutes.

Wenn das Lesen zu lange dauert, können Sie eine der folgenden Filteroptionen verwenden:

Hinweis

Die IMS-Org wird im client_context festgelegt.

Python

Zum Lesen von Daten in Python verwenden Sie bitte das folgende Code-Beispiel:

from platform_sdk.dataset_reader import DatasetReader
dataset_reader = DatasetReader(client_context, "{DATASET_ID}")
df = dataset_reader.limit(100).read()
df.head()

R

Zum Lesen von Daten in R verwenden Sie bitte das folgende Code-Beispiel:

DatasetReader <- psdk$dataset_reader$DatasetReader
dataset_reader <- DatasetReader(client_context, "{DATASET_ID}") 
df <- dataset_reader$read() 
df

Nach Offset und Limit filtern

Da das Filtern nach Batch-Kennung nicht mehr unterstützt wird, müssen Sie zum Begrenzen des Datenlesens offset und limit verwenden.

Python

df = dataset_reader.limit(100).offset(1).read()
df.head

R

df <- dataset_reader$limit(100L)$offset(1L)$read() 
df

Nach Datum filtern

Die Granularität der Datumsfilterung wird jetzt durch den Zeitstempel definiert und nicht mehr durch den Tag.

Python

df = dataset_reader.where(\
    dataset_reader['timestamp'].gt('2019-04-10 15:00:00').\
    And(dataset_reader['timestamp'].lt('2019-04-10 17:00:00'))\
).read()
df.head()

R

df2 <- dataset_reader$where(
    dataset_reader['timestamp']$gt('2018-12-10 15:00:00')$
    And(dataset_reader['timestamp']$lt('2019-04-10 17:00:00'))
)$read()
df2

The new Platform SDK supports the following operations:

Vorgang Funktion
Gleich (=) eq()
Größer als (>) gt()
Größer oder gleich (>=) ge()
Niedriger als (<) lt()
Kleiner oder gleich (<=) le()
Und (&) And()
Oder (|) Or()

Nach ausgewählten Spalten filtern

Zur weiteren Verfeinerung des Datenlesens können Sie auch nach Spaltennamen filtern.

Python

df = dataset_reader.select(['column-a','column-b']).read()

R

df <- dataset_reader$select(c('column-a','column-b'))$read() 

Sortierte Ergebnisse abrufen

Die erhaltenen Ergebnisse können nach bestimmten Spalten des Zieldatensatzes und in ihrer Reihenfolge (aufsteigend/absteigend) sortiert werden.

Im folgenden Beispiel wird Dataframe zuerst in aufsteigender Reihenfolge nach „column-a“ sortiert. Zeilen mit den gleichen Werten für „column-a“ werden dann in absteigender Reihenfolge nach „column-b“ sortiert.

Python

df = dataset_reader.sort([('column-a', 'asc'), ('column-b', 'desc')])

R

df <- dataset_reader$sort(c(('column-a', 'asc'), ('column-b', 'desc')))$read()

Grundlegendes Datenschreiben

Hinweis

Die IMS-Org wird im client_context festgelegt.

Um Daten in Python und R zu schreiben, verwenden Sie eines der folgenden Beispiele:

Python

from platform_sdk.models import Dataset
from platform_sdk.dataset_writer import DatasetWriter

dataset = Dataset(client_context).get_by_id("{DATASET_ID}")
dataset_writer = DatasetWriter(client_context, dataset)
write_tracker = dataset_writer.write({PANDA_DATAFRAME}, file_format='json')

R

dataset <- psdk$models$Dataset(client_context)$get_by_id("{DATASET_ID}")
dataset_writer <- psdk$dataset_writer$DatasetWriter(client_context, dataset)
write_tracker <- dataset_writer$write({PANDA_DATAFRAME}, file_format='json')

Nächste Schritte

Nachdem Sie den platform_sdk-Data-Loader konfiguriert haben, werden die Daten vorbereitet und auf die Datensätze train und val aufgeteilt. Informationen zur Datenvorbereitung und Funktionsentwicklung finden Sie im Abschnitt zur Datenvorbereitung und Funktionsentwicklung in der Anleitung zum Erstellen eines Rezepts mit Notebooks.JupyterLab

Auf dieser Seite