Acessando dados usando Python em data science Área de trabalho
A documento a seguir contém exemplos sobre como acessar dados usando Python para usar em Área de trabalho de ciência de dados. Para obter informações sobre como acessar dados usando notebooks JupyterLab, visita a documentação de acesso🔗 a dados dos notebooks JupyterLab.
Leitura de uma conjunto de dados
Depois de definir as variáveis ambiente e concluir a instalação, seus conjunto de dados agora podem ser lidos no dataframe dos pandas.
import pandas as pd
from .utils import get_client_context
from platform_sdk.dataset_reader import DatasetReader
def load(config_properties):
client_context = get_client_context(config_properties)
dataset_reader = DatasetReader(client_context, config_properties['DATASET_ID'])
df = dataset_reader.read()
SELECIONAR colunas no conjunto de dados
df = dataset_reader.select(['column-a','column-b']).read()
Obtenha informações de particionamento:
client_context = get_client_context(config_properties)
dataset = Dataset(client_context).get_by_id({DATASET_ID})
partitions = dataset.get_partitions_info()
Cláusula DISTINTA
A cláusula DISTINCT permite buscar todos os valores distintos em um nível de linha/coluna, removendo todos os valores duplicado da resposta.
Um exemplo do uso da distinct()
função pode ser visto abaixo:
df = dataset_reader.select(['column-a']).distinct().read()
CLÁUSULA ONDE
Você pode usar certos operadores em Python para ajudar a filtrar suas conjunto de dados.
eq() = '='
gt() = '>'
ge() = '>='
lt() = '<'
le() = '<='
And = and operator
Or = or operator
Um exemplo do uso dessas funções de filtragem pode ser visto abaixo:
df = dataset_reader.where(experience_ds['timestamp'].gt(87879779797).And(experience_ds['timestamp'].lt(87879779797)).Or(experience_ds['a'].eq(123)))
ORDEM POR cláusula
A cláusula ORDEM POR permite que os resultados recebidos sejam classificados por uma coluna especificada em uma solicitar específica (crescente ou decrescente). Isso é feito usando a sort()
função.
Um exemplo do uso da sort()
função pode ser visto abaixo:
df = dataset_reader.sort([('column_1', 'asc'), ('column_2', 'desc')])
Cláusula de LIMITE
A cláusula limite permite limitar o número de registros recebidos do conjunto de dados.
Um exemplo do uso da limit()
função pode ser visto abaixo:
df = dataset_reader.limit(100).read()
Cláusula de DESLOCAMENTO
A cláusula OFFSET permite que você pule linhas, desde o início, para start linhas recorrentes a partir de um ponto posterior. Em combinação com o LIMITE, isso pode ser usado para iterar linhas em blocos.
Um exemplo do uso da offset()
função pode ser visto abaixo:
df = dataset_reader.offset(100).read()
Escrever uma conjunto de dados
Para escrever a um conjunto de dados, você precisa fornecer o período de dados dos pandas ao seu conjunto de dados.
Escrevendo o dataframe dos pandas
client_context = get_client_context(config_properties)
# To fetch existing dataset
dataset = Dataset(client_context).get_by_id({DATASET_ID})
dataset_writer = DatasetWriter(client_context, dataset)
write_tracker = dataset_writer.write(<your_dataFrame>, file_format='json')
Diretório do userspace (Ponto de verificação)
Para trabalhos mais longos, talvez seja necessário armazenamento etapas intermediárias. Em casos curtir isso, você pode ler e gravar em um espaço de usuário.
Gravar no espaço de usuário
client_context = get_client_context(config_properties)
user_helper = UserSpaceHelper(client_context)
user_helper.write(data_frame=<data_frame>, path=<path_to_directory>, ref_dataset_id=<ref_dataset_id>)
Ler do espaço de usuário
client_context = get_client_context(config_properties)
user_helper = UserSpaceHelper(client_context)
my_df = user_helper.read(path=<path_to_directory>, ref_dataset_id=<ref_dataset_id>)
Próximas etapas
Adobe Experience Platform Data Science Área de trabalho fornece uma amostra fórmula que usa as amostras de código acima para ler e gravar dados. Se você quiser saber mais sobre como usar Python para acessar seus dados, consulte o repositório Python GitHub Área de trabalho Data Science.