Toegang verkrijgen tot gegevens met Python in Data Science Workspace
Het volgende document bevat voorbeelden over hoe u toegang kunt krijgen tot gegevens met Python voor gebruik in Data Science Workspace. Voor informatie bij de toegang tot van gegevens die laptops gebruiken JupyterLab, bezoek de JupyterLab toegang van notitieboekjes totdocumentatie.
Een gegevensset lezen
Nadat u de omgevingsvariabelen hebt ingesteld en de installatie hebt voltooid, kunt u uw gegevensset nu lezen in het dataframe van pandas.
import pandas as pd
from .utils import get_client_context
from platform_sdk.dataset_reader import DatasetReader
def load(config_properties):
client_context = get_client_context(config_properties)
dataset_reader = DatasetReader(client_context, config_properties['DATASET_ID'])
df = dataset_reader.read()
Kolommen SELECTEREN uit de gegevensset
df = dataset_reader.select(['column-a','column-b']).read()
Informatie over partitionering ophalen:
client_context = get_client_context(config_properties)
dataset = Dataset(client_context).get_by_id({DATASET_ID})
partitions = dataset.get_partitions_info()
DISTINCT, component
Met de component DISTINCT kunt u alle afzonderlijke waarden op rij-/kolomniveau ophalen, waarbij alle dubbele waarden uit de reactie worden verwijderd.
Hieronder ziet u een voorbeeld van het gebruik van de functie distinct()
:
df = dataset_reader.select(['column-a']).distinct().read()
WHERE-component
U kunt bepaalde operatoren in Python gebruiken om uw gegevensset te filteren.
eq() = '='
gt() = '>'
ge() = '>='
lt() = '<'
le() = '<='
And = and operator
Or = or operator
Hieronder ziet u een voorbeeld van het gebruik van deze filterfuncties:
df = dataset_reader.where(experience_ds['timestamp'].gt(87879779797).And(experience_ds['timestamp'].lt(87879779797)).Or(experience_ds['a'].eq(123)))
ORDER BY-component
Met de ORDER BY-component kunnen ontvangen resultaten worden gesorteerd met een opgegeven kolom in een bepaalde volgorde (oplopend of aflopend). Dit wordt gedaan door de functie sort()
te gebruiken.
Hieronder ziet u een voorbeeld van het gebruik van de functie sort()
:
df = dataset_reader.sort([('column_1', 'asc'), ('column_2', 'desc')])
LIMIT-component
De clausule LIMIT staat u toe om het aantal verslagen te beperken die van de dataset worden ontvangen.
Hieronder ziet u een voorbeeld van het gebruik van de functie limit()
:
df = dataset_reader.limit(100).read()
OFFSET-clausule
Met de component OFFSET kunt u rijen vanaf het begin overslaan en vanaf een later punt beginnen met het retourneren van rijen. In combinatie met LIMIT, kan dit worden gebruikt om rijen in blokken te herhalen.
Hieronder ziet u een voorbeeld van het gebruik van de functie offset()
:
df = dataset_reader.offset(100).read()
Een gegevensset schrijven
Om aan een dataset te schrijven, moet u het pandas dataframe aan uw dataset leveren.
Schrijven van het dataframe van de panda's
client_context = get_client_context(config_properties)
# To fetch existing dataset
dataset = Dataset(client_context).get_by_id({DATASET_ID})
dataset_writer = DatasetWriter(client_context, dataset)
write_tracker = dataset_writer.write(<your_dataFrame>, file_format='json')
Gebruikersruimtedirectory (controlepunt)
Voor langere actieve taken moet u mogelijk tussenliggende stappen opslaan. In dergelijke gevallen kunt u lezen en schrijven naar een gebruikersruimte.
Schrijven naar gebruikersruimte
client_context = get_client_context(config_properties)
user_helper = UserSpaceHelper(client_context)
user_helper.write(data_frame=<data_frame>, path=<path_to_directory>, ref_dataset_id=<ref_dataset_id>)
Lezen uit gebruikersruimte
client_context = get_client_context(config_properties)
user_helper = UserSpaceHelper(client_context)
my_df = user_helper.read(path=<path_to_directory>, ref_dataset_id=<ref_dataset_id>)
Volgende stappen
Adobe Experience Platform Data Science Workspace levert een recept-voorbeeld waarin de bovenstaande codevoorbeelden worden gebruikt voor het lezen en schrijven van gegevens. Als u meer over wilt leren hoe te om Python voor de toegang tot van uw gegevens te gebruiken, te herzien gelieve de Gegevens Wetenschap Workspace Python GitHub Bewaarplaats.