Acceso a datos con Python en Data Science Espacio de trabajo
El siguiente documento contiene ejemplos sobre cómo acceder a los datos mediante Python para utilizarlo en Data Science Workspace. Para obtener información sobre el acceso a los datos mediante los blocs de notas de JupyterLab, visite la documentación de acceso a los datos de los blocs de notas de JupyterLab.
Lectura de un conjunto de datos
Después de configurar las variables de entorno y completar la instalación, el conjunto de datos ahora se puede leer en el marco de datos de pandas.
import pandas as pd
from .utils import get_client_context
from platform_sdk.dataset_reader import DatasetReader
def load(config_properties):
client_context = get_client_context(config_properties)
dataset_reader = DatasetReader(client_context, config_properties['DATASET_ID'])
df = dataset_reader.read()
SELECCIONAR columnas del conjunto de datos
df = dataset_reader.select(['column-a','column-b']).read()
Obtener información de partición:
client_context = get_client_context(config_properties)
dataset = Dataset(client_context).get_by_id({DATASET_ID})
partitions = dataset.get_partitions_info()
Cláusula DISTINCT
La cláusula DISTINCT le permite obtener todos los valores distintos en un nivel de fila/columna, eliminando todos los valores duplicado de la respuesta.
A continuación se muestra un ejemplo de uso de la distinct()
función:
df = dataset_reader.select(['column-a']).distinct().read()
Cláusula WHERE
Puede utilizar ciertos operadores en Python para filtrar el conjunto de datos.
eq() = '='
gt() = '>'
ge() = '>='
lt() = '<'
le() = '<='
And = and operator
Or = or operator
A continuación se muestra un ejemplo del uso de estas funciones de filtrado:
df = dataset_reader.where(experience_ds['timestamp'].gt(87879779797).And(experience_ds['timestamp'].lt(87879779797)).Or(experience_ds['a'].eq(123)))
Cláusula ORDER BY
La cláusula ORDER BY permite ordenar los resultados recibidos por una columna especificada en un orden específico (ascendente o descendente). Esto se hace mediante la función sort()
.
A continuación se muestra un ejemplo de uso de la sort()
función:
df = dataset_reader.sort([('column_1', 'asc'), ('column_2', 'desc')])
Cláusula LIMIT
La cláusula LIMIT le permite limitar el número de registros recibidos del conjunto de datos.
A continuación se muestra un ejemplo de uso de la limit()
función:
df = dataset_reader.limit(100).read()
Cláusula OFFSET
La cláusula OFFSET permite omitir filas, desde el principio, para comenzar a devolver filas desde un punto posterior. En combinación con LIMIT, esto se puede utilizar para repetir filas en bloques.
A continuación se muestra un ejemplo del uso de la función offset()
:
df = dataset_reader.offset(100).read()
Escribir un conjunto de datos
Para escribir en un conjunto de datos, debe proporcionar el marco de datos de pandas a su conjunto de datos.
Escribiendo el marco de datos de los pandas
client_context = get_client_context(config_properties)
# To fetch existing dataset
dataset = Dataset(client_context).get_by_id({DATASET_ID})
dataset_writer = DatasetWriter(client_context, dataset)
write_tracker = dataset_writer.write(<your_dataFrame>, file_format='json')
Directorio del espacio de usuario (Checkpoints)
Para trabajos de mayor duración, es posible que deba tienda pasos intermedios. En casos gustar este, puede leer y escribir en un espacio de usuario.
Escribir en el espacio de usuario
client_context = get_client_context(config_properties)
user_helper = UserSpaceHelper(client_context)
user_helper.write(data_frame=<data_frame>, path=<path_to_directory>, ref_dataset_id=<ref_dataset_id>)
Leer desde espacio de usuario
client_context = get_client_context(config_properties)
user_helper = UserSpaceHelper(client_context)
my_df = user_helper.read(path=<path_to_directory>, ref_dataset_id=<ref_dataset_id>)
Pasos siguientes
Adobe Experience Platform Data Science Workspace proporciona un ejemplo de fórmula que utiliza los ejemplos de código anteriores para leer y escribir datos. Si desea obtener más información sobre cómo usar Python para acceder a sus datos, consulte el Repositorio de GitHub de Python de Data Science Workspace.