Skapa modeller med Adobe Experience Platform Platform SDK
I den här självstudien får du information om hur du konverterar data_access_sdk_python
till den nya Python platform_sdk
i både Python och R. I den här självstudien finns information om följande åtgärder:
Bygg autentisering build-authentication
Autentisering krävs för att anropa Adobe Experience Platform och består av API-nyckel, organisations-ID, en användartoken och en tjänsttoken.
Python
Om du använder Jupyter Notebook, ska du använda koden nedan för att skapa client_context
:
client_context = PLATFORM_SDK_CLIENT_CONTEXT
Om du inte använder Jupyter Notebook eller behöver ändra organisation använder du följande kodexempel:
from platform_sdk.client_context import ClientContext
client_context = ClientContext(api_key={API_KEY},
org_id={ORG_ID},
user_token={USER_TOKEN},
service_token={SERVICE_TOKEN})
R
Om du använder Jupyter Notebook, ska du använda koden nedan för att skapa client_context
:
library(reticulate)
use_python("/usr/local/bin/ipython")
psdk <- import("platform_sdk")
py_run_file("../.ipython/profile_default/startup/platform_sdk_context.py")
client_context <- py$PLATFORM_SDK_CLIENT_CONTEXT
Om du inte använder Jupyter Notebook eller behöver byta organisation använder du följande kodexempel:
library(reticulate)
use_python("/usr/local/bin/ipython")
psdk <- import("platform_sdk")
client_context <- psdk$client_context$ClientContext(api_key={API_KEY},
org_id={ORG_ID},
user_token={USER_TOKEN},
service_token={SERVICE_TOKEN})
Grundläggande läsning av data basic-reading-of-data
Med nya Platform SDK är den maximala lässtorleken 32 GB, med en maximal lästid på 10 minuter.
Om lästiden är för lång kan du försöka med att använda något av följande filtreringsalternativ:
client_context
.Python
Läs data i Python genom att använda kodexemplet nedan:
from platform_sdk.dataset_reader import DatasetReader
dataset_reader = DatasetReader(client_context, "{DATASET_ID}")
df = dataset_reader.limit(100).read()
df.head()
R
Använd kodexemplet nedan för att läsa data i R:
DatasetReader <- psdk$dataset_reader$DatasetReader
dataset_reader <- DatasetReader(client_context, "{DATASET_ID}")
df <- dataset_reader$read()
df
Filtrera efter förskjutning och begränsning filter-by-offset-and-limit
Eftersom filtrering med batch-ID inte längre stöds, måste du använda offset
och limit
för att kunna omfång för läsning av data.
Python
df = dataset_reader.limit(100).offset(1).read()
df.head
R
df <- dataset_reader$limit(100L)$offset(1L)$read()
df
Filtrera efter datum filter-by-date
Datumfiltreringens detaljrikedom definieras nu av tidsstämpeln i stället för att anges av dagen.
Python
df = dataset_reader.where(\
dataset_reader['timestamp'].gt('2019-04-10 15:00:00').\
And(dataset_reader['timestamp'].lt('2019-04-10 17:00:00'))\
).read()
df.head()
R
df2 <- dataset_reader$where(
dataset_reader['timestamp']$gt('2018-12-10 15:00:00')$
And(dataset_reader['timestamp']$lt('2019-04-10 17:00:00'))
)$read()
df2
Den nya SDK:n Platform stöder följande åtgärder:
=
)eq()
>
)gt()
>=
)ge()
<
)lt()
<=
)le()
&
)And()
Filtrera efter markerade kolumner filter-by-selected-columns
Om du vill förfina läsningen av data ytterligare kan du även filtrera efter kolumnnamn.
Python
df = dataset_reader.select(['column-a','column-b']).read()
R
df <- dataset_reader$select(c('column-a','column-b'))$read()
Få sorterade resultat get-sorted-results
Mottagna resultat kan sorteras efter angivna kolumner i måldatauppsättningen och i deras ordning (asc/desc).
I följande exempel sorteras dataramen med "column-a" först i stigande ordning. Rader som har samma värden för "column-a" sorteras sedan med "column-b" i fallande ordning.
Python
df = dataset_reader.sort([('column-a', 'asc'), ('column-b', 'desc')])
R
df <- dataset_reader$sort(c(('column-a', 'asc'), ('column-b', 'desc')))$read()
Grundläggande skrivande av data basic-writing-of-data
client_context
.Om du vill skriva data i Python och R använder du ett av följande exempel:
Python
from platform_sdk.models import Dataset
from platform_sdk.dataset_writer import DatasetWriter
dataset = Dataset(client_context).get_by_id("{DATASET_ID}")
dataset_writer = DatasetWriter(client_context, dataset)
write_tracker = dataset_writer.write({PANDA_DATAFRAME}, file_format='json')
R
dataset <- psdk$models$Dataset(client_context)$get_by_id("{DATASET_ID}")
dataset_writer <- psdk$dataset_writer$DatasetWriter(client_context, dataset)
write_tracker <- dataset_writer$write({PANDA_DATAFRAME}, file_format='json')
Nästa steg
När du har konfigurerat datainläsaren platform_sdk
förbereds data och delas sedan upp i datamängderna train
och val
. Om du vill veta mer om dataförberedelser och funktionskonstruktion kan du gå till avsnittet dataförberedelser och funktionskonstruktion i självstudiekursen för att skapa ett recept med hjälp av JupyterLab bärbara datorer.