Documentación Experience Platform Guía de Data Science Workspace

Creación de modelos mediante el SDK Platform de Adobe Experience Platform

Last update: Tue Jul 16 2024 00:00:00 GMT+0000 (Coordinated Universal Time)

Temas:
Data Science Workspace

Creado para:

Usuario
Desarrollador

Este tutorial le proporciona información sobre la conversión de data_access_sdk_python al nuevo Python platform_sdk tanto en Python como en R. Este tutorial proporciona información sobre las siguientes operaciones:

Autenticación de compilación
Lectura básica de los datos
Escritura básica de datos

Autenticación de compilación build-authentication

Se requiere autenticación para realizar llamadas a Adobe Experience Platform, y consta de clave de API, ID de organización, un token de usuario y un token de servicio.

Python

Si está usando Jupyter Notebook, utilice el siguiente código para compilar client_context:

client_context = PLATFORM_SDK_CLIENT_CONTEXT

Si no utiliza Jupyter Notebook o necesita cambiar la organización, utilice el siguiente ejemplo de código:

from platform_sdk.client_context import ClientContext
client_context = ClientContext(api_key={API_KEY},
              org_id={ORG_ID},
              user_token={USER_TOKEN},
              service_token={SERVICE_TOKEN})

R

Si está usando Jupyter Notebook, utilice el siguiente código para compilar client_context:

library(reticulate)
use_python("/usr/local/bin/ipython")
psdk <- import("platform_sdk")

py_run_file("../.ipython/profile_default/startup/platform_sdk_context.py")
client_context <- py$PLATFORM_SDK_CLIENT_CONTEXT

Si no utiliza Jupyter Notebook o necesita cambiar de organización, utilice el siguiente ejemplo de código:

library(reticulate)
use_python("/usr/local/bin/ipython")
psdk <- import("platform_sdk")
client_context <- psdk$client_context$ClientContext(api_key={API_KEY},
              org_id={ORG_ID},
              user_token={USER_TOKEN},
              service_token={SERVICE_TOKEN})

Lectura básica de los datos basic-reading-of-data

Con el nuevo SDK Platform, el tamaño máximo de lectura es de 32 GB, con un tiempo máximo de lectura de 10 minutos.

Si el tiempo de lectura está tardando demasiado, puede intentar utilizar una de las siguientes opciones de filtrado:

Filtrado de datos por desplazamiento y límite
Filtrado de datos por fecha
Filtrado de datos por columna
Obteniendo resultados ordenados

NOTE

La organización se ha establecido en client_context.

Python

Para leer datos en Python, utilice el ejemplo de código siguiente:

from platform_sdk.dataset_reader import DatasetReader
dataset_reader = DatasetReader(client_context, "{DATASET_ID}")
df = dataset_reader.limit(100).read()
df.head()

R

Para leer datos en R, utilice el siguiente ejemplo de código:

DatasetReader <- psdk$dataset_reader$DatasetReader
dataset_reader <- DatasetReader(client_context, "{DATASET_ID}")
df <- dataset_reader$read()
df

Filtrar por desplazamiento y límite filter-by-offset-and-limit

Dado que ya no se admite el filtrado por id. de lote, para ampliar el ámbito de lectura de los datos, debe usar offset y limit.

Python

df = dataset_reader.limit(100).offset(1).read()
df.head

R

df <- dataset_reader$limit(100L)$offset(1L)$read()
df

Filtrar por fecha filter-by-date

La granularidad del filtrado de fechas ahora se define mediante la marca de tiempo, no por el día.

Python

df = dataset_reader.where(\
    dataset_reader['timestamp'].gt('2019-04-10 15:00:00').\
    And(dataset_reader['timestamp'].lt('2019-04-10 17:00:00'))\
).read()
df.head()

R

df2 <- dataset_reader$where(
    dataset_reader['timestamp']$gt('2018-12-10 15:00:00')$
    And(dataset_reader['timestamp']$lt('2019-04-10 17:00:00'))
)$read()
df2

El nuevo SDK Platform admite las siguientes operaciones:

Operación

Función

Igual a (=)

eq()

Mayor que (>)

gt()

Mayor o igual que (>=)

ge()

Menor que (<)

lt()

Menor o igual que (<=)

le()

Y (&)

And()

O (`

Filtrar por columnas seleccionadas filter-by-selected-columns

Para restringir aún más la lectura de datos, también puede filtrar por nombre de columna.

Python

df = dataset_reader.select(['column-a','column-b']).read()

R

df <- dataset_reader$select(c('column-a','column-b'))$read()

Obtener resultados ordenados get-sorted-results

Los resultados recibidos se pueden ordenar por columnas especificadas del conjunto de datos de destinatario y en su orden (asc/desc) respectivamente.

En el ejemplo siguiente, dataframe se ordena por "column-a" primero en orden ascendente. Las filas que tienen los mismos valores para la columna a se ordenan por la columna b en orden descendente.

Python

df = dataset_reader.sort([('column-a', 'asc'), ('column-b', 'desc')])

R

df <- dataset_reader$sort(c(('column-a', 'asc'), ('column-b', 'desc')))$read()

Escritura básica de datos basic-writing-of-data

NOTE

La organización se ha establecido en client_context.

Para escribir datos en Python y R, utilice uno de los siguientes ejemplos:

Python

from platform_sdk.models import Dataset
from platform_sdk.dataset_writer import DatasetWriter

dataset = Dataset(client_context).get_by_id("{DATASET_ID}")
dataset_writer = DatasetWriter(client_context, dataset)
write_tracker = dataset_writer.write({PANDA_DATAFRAME}, file_format='json')

R

dataset <- psdk$models$Dataset(client_context)$get_by_id("{DATASET_ID}")
dataset_writer <- psdk$dataset_writer$DatasetWriter(client_context, dataset)
write_tracker <- dataset_writer$write({PANDA_DATAFRAME}, file_format='json')

Pasos siguientes

Una vez configurado el cargador de datos platform_sdk, los datos se preparan y se dividen en los conjuntos de datos train y val. Para obtener más información acerca de la preparación de datos y la ingeniería de características, visite la sección sobre preparación de datos e ingeniería de características en el tutorial para crear una fórmula con JupyterLab blocs de notas.

recommendation-more-help

cc79fe26-64da-411e-a6b9-5b650f53e4e9