Creación de modelos con el SDK Platform de Adobe Experience Platform

Este tutorial le proporciona información sobre la conversión de data_access_sdk_python al nuevo Python platform_sdk tanto en Python como en R. Este tutorial proporciona información sobre las siguientes operaciones:

Generar autenticación

La autenticación es necesaria para realizar llamadas a Adobe Experience Platform y está compuesta por clave de API, ID de organización de IMS, un token de usuario y un token de servicio.

Python

Si está utilizando Jupyter Notebook, utilice el siguiente código para crear el client_context:

client_context = PLATFORM_SDK_CLIENT_CONTEXT

Si no utiliza Jupyter Notebook o necesita cambiar la organización de IMS, utilice el siguiente ejemplo de código:

from platform_sdk.client_context import ClientContext
client_context = ClientContext(api_key={API_KEY},
              org_id={IMS_ORG},
              user_token={USER_TOKEN},
              service_token={SERVICE_TOKEN})

R

Si está utilizando Jupyter Notebook, utilice el siguiente código para crear el client_context:

library(reticulate)
use_python("/usr/local/bin/ipython")
psdk <- import("platform_sdk")

py_run_file("../.ipython/profile_default/startup/platform_sdk_context.py")
client_context <- py$PLATFORM_SDK_CLIENT_CONTEXT

Si no utiliza Jupyter Notebook o necesita cambiar la organización de IMS, utilice el siguiente ejemplo de código:

library(reticulate)
use_python("/usr/local/bin/ipython")
psdk <- import("platform_sdk")
client_context <- psdk$client_context$ClientContext(api_key={API_KEY},
              org_id={IMS_ORG},
              user_token={USER_TOKEN},
              service_token={SERVICE_TOKEN})

Lectura básica de datos

Con el nuevo SDK Platform, el tamaño máximo de lectura es de 32 GB, con un tiempo máximo de lectura de 10 minutos.

Si el tiempo de lectura está tardando demasiado, puede intentar utilizar una de las siguientes opciones de filtrado:

NOTA

La organización IMS se configura dentro de client_context.

Python

Para leer datos en Python, utilice el siguiente ejemplo de código:

from platform_sdk.dataset_reader import DatasetReader
dataset_reader = DatasetReader(client_context, "{DATASET_ID}")
df = dataset_reader.limit(100).read()
df.head()

R

Para leer los datos en R, utilice el siguiente ejemplo de código:

DatasetReader <- psdk$dataset_reader$DatasetReader
dataset_reader <- DatasetReader(client_context, "{DATASET_ID}") 
df <- dataset_reader$read() 
df

Filtrar por desajuste y limitar

Ya no se admite el filtrado por ID de lote, por lo que debe utilizar offset y limit para ampliar el ámbito de lectura de los datos.

Python

df = dataset_reader.limit(100).offset(1).read()
df.head

R

df <- dataset_reader$limit(100L)$offset(1L)$read() 
df

Filtrar por fecha

La granularidad del filtrado de fechas ahora se define mediante la marca de tiempo, en lugar de configurarse por día.

Python

df = dataset_reader.where(\
    dataset_reader['timestamp'].gt('2019-04-10 15:00:00').\
    And(dataset_reader['timestamp'].lt('2019-04-10 17:00:00'))\
).read()
df.head()

R

df2 <- dataset_reader$where(
    dataset_reader['timestamp']$gt('2018-12-10 15:00:00')$
    And(dataset_reader['timestamp']$lt('2019-04-10 17:00:00'))
)$read()
df2

El nuevo SDK Platform admite las siguientes operaciones:

Operación Función
Es igual a (=) eq()
Greater than (>) gt()
Greater than or equal to (>=) ge()
Less than (<) lt()
Less than or equal to (<=) le()
Y (&) And()
O (` `)

Filtrar por columnas seleccionadas

Para restringir aún más la lectura de los datos, también puede filtrar por nombre de columna.

Python

df = dataset_reader.select(['column-a','column-b']).read()

R

df <- dataset_reader$select(c('column-a','column-b'))$read() 

Obtener resultados ordenados

Los resultados recibidos se pueden ordenar por columnas especificadas del conjunto de datos de destino y en su orden (asc/desc) respectivamente.

En el siguiente ejemplo, dataframe se ordena primero por "column-a" en orden ascendente. Las filas que tienen los mismos valores para la "columna-a" se ordenan por "columna-b" en orden descendente.

Python

df = dataset_reader.sort([('column-a', 'asc'), ('column-b', 'desc')])

R

df <- dataset_reader$sort(c(('column-a', 'asc'), ('column-b', 'desc')))$read()

Escritura básica de datos

NOTA

La organización IMS se configura dentro de client_context.

Para escribir datos en Python y R, utilice uno de los siguientes ejemplos:

Python

from platform_sdk.models import Dataset
from platform_sdk.dataset_writer import DatasetWriter

dataset = Dataset(client_context).get_by_id("{DATASET_ID}")
dataset_writer = DatasetWriter(client_context, dataset)
write_tracker = dataset_writer.write({PANDA_DATAFRAME}, file_format='json')

R

dataset <- psdk$models$Dataset(client_context)$get_by_id("{DATASET_ID}")
dataset_writer <- psdk$dataset_writer$DatasetWriter(client_context, dataset)
write_tracker <- dataset_writer$write({PANDA_DATAFRAME}, file_format='json')

Pasos siguientes

Una vez configurado el cargador de datos platform_sdk, los datos se preparan y luego se dividen en los conjuntos de datos train y val. Para obtener más información sobre la preparación de datos y la ingeniería de características, visite la sección sobre preparación de datos e ingeniería de características en el tutorial para crear una fórmula utilizando JupyterLab blocs de notas.

En esta página