Criação de modelo usando o Adobe Experience Platform Platform SDK
Este tutorial fornece informações sobre como converter data_access_sdk_python
para o novo Python platform_sdk
em Python e R. Este tutorial fornece informações sobre as seguintes operações:
Autenticação de compilação build-authentication
Authentication é necessário fazer chamadas Adobe Experience Platforme é composto por chave de API, ID da organização, um token de usuário e um token de serviço.
Python
Se você estiver usando o Notebook Jupyter, use o código abaixo para build:client_context
client_context = PLATFORM_SDK_CLIENT_CONTEXT
Se você não estiver usando o Notebook Jupyter ou precisar alterar a organização, use a amostra de código abaixo:
from platform_sdk.client_context import ClientContext
client_context = ClientContext(api_key={API_KEY},
org_id={ORG_ID},
user_token={USER_TOKEN},
service_token={SERVICE_TOKEN})
R
Se você estiver usando o Notebook Jupyter, use o código abaixo para build:client_context
library(reticulate)
use_python("/usr/local/bin/ipython")
psdk <- import("platform_sdk")
py_run_file("../.ipython/profile_default/startup/platform_sdk_context.py")
client_context <- py$PLATFORM_SDK_CLIENT_CONTEXT
Se você não estiver usando o Notebook Jupyter ou precisar alterar a organização, use a amostra de código abaixo:
library(reticulate)
use_python("/usr/local/bin/ipython")
psdk <- import("platform_sdk")
client_context <- psdk$client_context$ClientContext(api_key={API_KEY},
org_id={ORG_ID},
user_token={USER_TOKEN},
service_token={SERVICE_TOKEN})
Leitura básica dos dados basic-reading-of-data
Com o novo Platform SDK, o tamanho máximo de leitura é de 32 GB, com tempo máximo de leitura de 10 minutos.
Se o tempo de leitura estiver demorando muito, você pode tentar usar uma das seguintes opções de filtragem:
client_context
.Python
Para ler dados em Python, use a amostra de código abaixo:
from platform_sdk.dataset_reader import DatasetReader
dataset_reader = DatasetReader(client_context, "{DATASET_ID}")
df = dataset_reader.limit(100).read()
df.head()
R
Para ler os dados em R, use a amostra de código abaixo:
DatasetReader <- psdk$dataset_reader$DatasetReader
dataset_reader <- DatasetReader(client_context, "{DATASET_ID}")
df <- dataset_reader$read()
df
Filtrar por deslocamento e limite filter-by-offset-and-limit
Como não há mais suporte para filtragem por ID de lote, para determinar a leitura de dados, é necessário usar offset
e limit
.
Python
df = dataset_reader.limit(100).offset(1).read()
df.head
R
df <- dataset_reader$limit(100L)$offset(1L)$read()
df
Filtrar por data filter-by-date
A granularidade da filtragem de data agora é definida pelo carimbo de data e hora, em vez de ser definida pelo dia.
Python
df = dataset_reader.where(\
dataset_reader['timestamp'].gt('2019-04-10 15:00:00').\
And(dataset_reader['timestamp'].lt('2019-04-10 17:00:00'))\
).read()
df.head()
R
df2 <- dataset_reader$where(
dataset_reader['timestamp']$gt('2018-12-10 15:00:00')$
And(dataset_reader['timestamp']$lt('2019-04-10 17:00:00'))
)$read()
df2
O novo Platform SDK suporta as seguintes operações:
=
)eq()
>
)gt()
>=
)ge()
<
)lt()
<=
)le()
&
)And()
Filtrar por colunas selecionadas filter-by-selected-columns
Para refinar ainda mais sua leitura de dados, também é possível filtrar por nome de coluna.
Python
df = dataset_reader.select(['column-a','column-b']).read()
R
df <- dataset_reader$select(c('column-a','column-b'))$read()
Obter resultados classificados get-sorted-results
Os resultados recebidos podem ser classificados por colunas especificadas da Direcionamento conjunto de dados e em suas solicitar (asc/desc), respectivamente.
No exemplo a seguir, o período de dados é classificado por "column-a" primeiro em solicitar crescentes. As linhas que tiverem os mesmos valores para "column-a" são classificadas por "column-b" em solicitar decrescente.
Python
df = dataset_reader.sort([('column-a', 'asc'), ('column-b', 'desc')])
R
df <- dataset_reader$sort(c(('column-a', 'asc'), ('column-b', 'desc')))$read()
Escrita básica de dados basic-writing-of-data
client_context
.Para escrever dados em Python e R, use um dos seguintes exemplos abaixo:
Python
from platform_sdk.models import Dataset
from platform_sdk.dataset_writer import DatasetWriter
dataset = Dataset(client_context).get_by_id("{DATASET_ID}")
dataset_writer = DatasetWriter(client_context, dataset)
write_tracker = dataset_writer.write({PANDA_DATAFRAME}, file_format='json')
R
dataset <- psdk$models$Dataset(client_context)$get_by_id("{DATASET_ID}")
dataset_writer <- psdk$dataset_writer$DatasetWriter(client_context, dataset)
write_tracker <- dataset_writer$write({PANDA_DATAFRAME}, file_format='json')
Próximas etapas
Depois de configurar o carregador de dados platform_sdk
, os dados serão preparados e divididos nos conjuntos de dados train
e val
. Para saber mais sobre preparação de dados e engenharia de recursos, visita a seção sobre preparação de dados e engenharia de recursos no tutorial de criação de fórmula uso de JupyterLab notebooks.