Il seguente documento contiene esempi su come accedere ai dati utilizzando Python per l’utilizzo in Data Science Workspace. Per informazioni sull'accesso ai dati tramite i notebook JupyterLab, visita Accesso ai dati dei notebook JupyterLab documentazione.
Dopo aver impostato le variabili di ambiente e aver completato l'installazione, il set di dati può ora essere letto nel dataframe di panda.
import pandas as pd
from .utils import get_client_context
from platform_sdk.dataset_reader import DatasetReader
def load(config_properties):
client_context = get_client_context(config_properties)
dataset_reader = DatasetReader(client_context, config_properties['DATASET_ID'])
df = dataset_reader.read()
df = dataset_reader.select(['column-a','column-b']).read()
client_context = get_client_context(config_properties)
dataset = Dataset(client_context).get_by_id({DATASET_ID})
partitions = dataset.get_partitions_info()
La clausola DISTINCT consente di recuperare tutti i valori distinti a livello di riga/colonna, rimuovendo tutti i valori duplicati dalla risposta.
Un esempio di utilizzo del distinct()
funzionalità di seguito:
df = dataset_reader.select(['column-a']).distinct().read()
Puoi utilizzare alcuni operatori in Python per filtrare il set di dati.
Le funzioni utilizzate per il filtraggio sono sensibili all’uso di maiuscole e minuscole.
eq() = '='
gt() = '>'
ge() = '>='
lt() = '<'
le() = '<='
And = and operator
Or = or operator
Di seguito è riportato un esempio di utilizzo di queste funzioni di filtro:
df = dataset_reader.where(experience_ds['timestamp'].gt(87879779797).And(experience_ds['timestamp'].lt(87879779797)).Or(experience_ds['a'].eq(123)))
La clausola ORDER BY consente di ordinare i risultati ricevuti in base a una colonna specifica in un ordine specifico (crescente o decrescente). A tale scopo, utilizza le sort()
funzione .
Un esempio di utilizzo del sort()
funzionalità di seguito:
df = dataset_reader.sort([('column_1', 'asc'), ('column_2', 'desc')])
La clausola LIMIT ti consente di limitare il numero di record ricevuti dal set di dati.
Un esempio di utilizzo del limit()
funzionalità di seguito:
df = dataset_reader.limit(100).read()
La clausola OFFSET consente di saltare le righe dall'inizio per iniziare a restituire le righe da un punto successivo. In combinazione con LIMIT, può essere utilizzato per iterare le righe nei blocchi.
Un esempio di utilizzo del offset()
funzionalità di seguito:
df = dataset_reader.offset(100).read()
Per scrivere in un set di dati, è necessario fornire il dataframe panda al set di dati.
client_context = get_client_context(config_properties)
# To fetch existing dataset
dataset = Dataset(client_context).get_by_id({DATASET_ID})
dataset_writer = DatasetWriter(client_context, dataset)
write_tracker = dataset_writer.write(<your_dataFrame>, file_format='json')
Per i lavori più lunghi, potrebbe essere necessario memorizzare i passaggi intermedi. In casi come questo, è possibile leggere e scrivere in uno spazio utente.
I percorsi dei dati sono not memorizzato. È necessario memorizzare il percorso corrispondente ai relativi dati.
client_context = get_client_context(config_properties)
user_helper = UserSpaceHelper(client_context)
user_helper.write(data_frame=<data_frame>, path=<path_to_directory>, ref_dataset_id=<ref_dataset_id>)
client_context = get_client_context(config_properties)
user_helper = UserSpaceHelper(client_context)
my_df = user_helper.read(path=<path_to_directory>, ref_dataset_id=<ref_dataset_id>)
Adobe Experience Platform Data Science Workspace fornisce un esempio di ricetta che utilizza gli esempi di codice riportati sopra per leggere e scrivere i dati. Per ulteriori informazioni su come utilizzare Python per accedere ai dati, consulta la Archivio GitHub Python di Data Science Workspace.