Analyseer uw gegevens met notebooks

Deze zelfstudie richt zich op het gebruik van Jupyter-laptops, gebouwd in de Data Science Workspace, voor toegang tot, verkenning en visualisatie van uw gegevens. Tegen het einde van deze zelfstudie hebt u meer inzicht in enkele functies die Jupyter-laptops bieden om uw gegevens beter te begrijpen.

De volgende concepten worden geïntroduceerd:

  • JupyterLab: JupyterLab is de volgende generatie web-based interface voor Project Jupyter, en is strak geïntegreerd in Adobe Experience Platform.
  • Batches: Datasets bestaan uit batches. Een batch is een reeks gegevens die over een bepaalde periode worden verzameld en samen als één eenheid worden verwerkt. Nieuwe batches worden gemaakt wanneer gegevens aan een gegevensset worden toegevoegd.
  • SDK voor gegevenstoegang (afgekeurd): De SDK voor gegevenstoegang is nu afgekeurd. Gebruik de Platform SDK hulplijn.

Laptops verkennen in de werkruimte voor wetenschap van gegevens

In deze sectie, worden de gegevens onderzocht die eerder in het detailhandelschema werden opgenomen.

Met de werkruimte voor gegevenswetenschap kunnen gebruikers Jupyter Notebooks via de JupyterLab platform waar ze werkstromen voor machinaal leren kunnen maken en bewerken. JupyterLab is een hulpmiddel voor samenwerking tussen server en client waarmee gebruikers notitieboekjecten kunnen bewerken via een webbrowser. Deze laptops kunnen zowel uitvoerbare code als tekstelementen bevatten. Voor onze doeleinden gebruiken wij Markdown voor analysebeschrijving en uitvoerbaar Python code voor het onderzoeken en analyseren van gegevens.

Kies uw werkruimte

Bij starten JupyterLabWe krijgen een webinterface voor Jupyter-laptops te zien. Afhankelijk van welk type laptop we kiezen, wordt een corresponderende kernel gestart.

Bij het vergelijken van welke omgeving we moeten gebruiken, moeten we rekening houden met de beperkingen van elke service. Als we bijvoorbeeld de opdracht pandas bibliotheek met PythonAls normale gebruiker is de maximale RAM-geheugen 2 GB. Zelfs als energiegebruiker zouden we beperkt zijn tot 20 GB RAM. Als het om grotere berekeningen gaat, zou het zinvol zijn om te gebruiken Spark die 1,5 TB biedt en die met alle laptopexemplaren wordt gedeeld.

Standaard werkt Tensorflow-recept in een GPU-cluster en Python in een CPU-cluster.

Een nieuw notebook maken

In de Adobe Experience Platform UI, selecteer Data Science in het bovenste menu om naar de werkruimte voor wetenschap van gegevens te gaan. Selecteer op deze pagina JupyterLab om de JupyterLab lanceerinrichting. U zou een pagina moeten zien gelijkend op dit.

In onze zelfstudie gebruiken we Python 3 in het Notitieboekje van de Jupyter om te tonen hoe te om tot de gegevens toegang te hebben en te onderzoeken. Op de pagina Launcher staan voorbeelden van laptops. We gebruiken het winkelrecept voor Python 3.

Het recept van de Verkoop van de Detailhandel is een standalone voorbeeld dat de zelfde detailhandel dataset van de Verkoop gebruikt om te tonen hoe de gegevens in de Notitie van Jupyter kunnen worden onderzocht en worden visualiseerd. Bovendien gaat de laptop dieper in met training en verificatie. Meer informatie over deze specifieke laptop vindt u in deze wandelpad.

Toegangsgegevens

NOTE
De data_access_sdk_python is vervangen en niet meer aanbevolen. Raadpleeg de het omzetten van gegevens toegang SDK in Platform SDK zelfstudie voor het converteren van uw code. Voor deze zelfstudie gelden nog dezelfde stappen.

We gaan over tot interne toegang tot gegevens van Adobe Experience Platform en gegevens extern. We zullen de data_access_sdk_python bibliotheek om tot interne gegevens zoals datasets en schema's toegang te hebben XDM. Voor externe gegevens gebruiken we de panda's Python bibliotheek.

Externe gegevens

Open de Retail Sales-laptop en zoek de header "Load Data". Het volgende Python code gebruikt pandas DataFrame de gegevensstructuur en de read_csv() functie voor het lezen van de CSV-host op Github in het DataFrame:

De gegevensstructuur van Pandas' DataFrame is een tweedimensionale gelabelde gegevensstructuur. Om snel de afmetingen van onze gegevens te zien, kunnen wij gebruiken df.shape. Dit keert een tegel terug die de dimensionaliteit van DataFrame vertegenwoordigt:

Tot slot kunnen we eens bekijken hoe onze gegevens eruit zien. We kunnen df.head(n) om de eerste n rijen van het DataFrame:

Experience Platform data

We gaan nu verder met toegang Experience Platform gegevens.

Op gegevensset-id

Voor deze sectie, gebruiken wij de Detailhandel dataset van de Verkoop die de zelfde dataset is die in de de steekproefnotitie van de Verkoop wordt gebruikt.

In Jupyter-laptop hebt u toegang tot uw gegevens via de Gegevens tab tabblad Gegevens links. Als u het tabblad selecteert, worden er twee mappen weergegeven. Selecteer Datasets map.

Nu in de folder van Datasets, kunt u alle ingebedde datasets zien. Merk op dat het een minuut kan nemen om alle ingangen te laden als uw folder met datasets zwaar bevolkt is.

Aangezien de dataset het zelfde is, willen wij de ladingsgegevens van de vorige sectie vervangen die externe gegevens gebruikt. Selecteer het codeblok onder Gegevens laden en druk op "d" tweemaal op het toetsenbord. Zorg ervoor dat de focus zich op het blok bevindt en niet in de tekst. U kunt op "esc" om de tekstfocus te verlaten voordat u op "d" twee keer.

Nu kunnen we met de rechtermuisknop op de knop Retail-Training-<your-alias> dataset en selecteer de optie "Onderzoek Gegevens in Notitieboekje"in dropdown. Er wordt een uitvoerbaar code-item in uw notitieboekje weergegeven.

TIP
Zie de Platform SDK handleiding voor het converteren van code.
from data_access_sdk_python.reader import DataSetReader
from datetime import date
reader = DataSetReader()
df = reader.load(data_set_id="xxxxxxxx", ims_org="xxxxxxxx@AdobeOrg")
df.head()

Als u met andere kernels werkt dan Python, raadpleeg deze pagina voor toegang tot gegevens over de Adobe Experience Platform.

Als u de cel van het uitvoerbare bestand selecteert en vervolgens op de afspeelknop op de werkbalk drukt, wordt de uitvoerbare code uitgevoerd. De uitvoer voor head() zal een lijst met de sleutels van uw dataset als kolommen en eerste n rijen in de dataset zijn. head() Accepteert een geheel argument om te specificeren hoeveel lijnen aan output. Standaard is dit 5.

Als u de kernel opnieuw opstart en alle cellen opnieuw uitvoert, krijgt u dezelfde uitvoer als voorheen.

Uw gegevens verkennen

Nu wij tot uw gegevens kunnen toegang hebben, laten wij nadruk op de gegevens zelf door statistieken en visualisatie te gebruiken. De dataset die wij gebruiken is een detailgegevensset die diverse informatie over 45 verschillende opslag op een bepaalde dag geeft. Sommige kenmerken van een bepaalde date en store het volgende opnemen:

  • storeType
  • weeklySales
  • storeSize
  • temperature
  • regionalFuelPrice
  • markDown
  • cpi
  • unemployment
  • isHoliday

Statistisch overzicht

We kunnen gebruikmaken van Python’s pandabibliotheek om het gegevenstype van elk kenmerk op te halen. De output van de volgende vraag zal ons informatie over het aantal ingangen en het gegevenstype voor elk van de kolommen geven:

df.info()

Deze informatie is nuttig aangezien het weten van het gegevenstype voor elke kolom ons zal toelaten om te weten hoe te om de gegevens te behandelen.

Laten we nu eens kijken naar de statistische samenvatting. Alleen de numerieke gegevenstypen worden weergegeven, dus date, storeType, en isHoliday wordt niet uitgevoerd:

df.describe()

We zien dat er 6435 gevallen zijn voor elk kenmerk. Daarnaast worden statistische informatie gegeven zoals gemiddelde, standaardafwijking (std), min, max en interkwartielen. Dit geeft ons informatie over de afwijking voor de gegevens. In de volgende sectie gaan we over tot visualisatie die samen met deze informatie werkt om ons een goed inzicht te geven in onze gegevens.

De minimum- en maximumwaarden voor storeWe kunnen zien dat er 45 unieke opslagplaatsen zijn die de gegevens vertegenwoordigen. Er zijn ook storeTypes die onderscheid maken tussen wat een winkel is. We zien de verdeling van storeTypes door het volgende te doen:

Dit betekent dat 22 opslagplaatsen storeType A, zijn 17 storeType B, en 6 storeType C.

Gegevensvisualisatie

Nu we onze gegevenskaderwaarden kennen, willen we dit aanvullen met visualisaties om de dingen duidelijker en makkelijker te maken om patronen te identificeren. Grafieken zijn ook handig wanneer u resultaten naar een publiek verzendt. Sommige Python bibliotheken die nuttig zijn voor visualisatie zijn onder meer:

In deze sectie gaan we snel over enkele voordelen voor het gebruik van elke bibliotheek.

Matplotlib is de oudste Python visualisatiepakket. Hun doel is om "gemakkelijke en moeilijke dingen mogelijk te maken". Dit is meestal het geval omdat het pakket uiterst krachtig is, maar ook ingewikkeld. Het is niet altijd gemakkelijk om een redelijke grafiek te krijgen zonder veel tijd en moeite te nemen.

Pandas wordt voornamelijk gebruikt voor het DataFrame-object dat gegevensmanipulatie met geïntegreerde indexering mogelijk maakt. Panda's bevatten echter ook een ingebouwde functie voor het uitzetten van beelden die is gebaseerd op matplotlib.

seaborn is een pakket dat bovenop matplotlib wordt gebouwd. Het hoofddoel is standaardgrafieken visueel aantrekkelijker te maken en het maken van gecompliceerde grafieken te vereenvoudigen.

gumpje is een pakket dat ook boven op matplotlib is gebouwd. Nochtans is het belangrijkste verschil dat het hulpmiddel een haven van gplot2 voor R is. Net als bij seaborn is het doel om matplotlib beter te krijgen. De gebruikers die met gplot2 voor R vertrouwd zijn zouden deze bibliotheek moeten overwegen.

Grafieken gelijktrekken

Univariate grafieken zijn percelen van een individuele variabele. Een uniforme grafiek wordt gebruikt om uw gegevens te visualiseren is de doos en de whiskergrafiek.

Met behulp van onze detailhandelsdataset van voordien, kunnen wij de doos en de whiskerperceel voor elk van 45 winkels en hun wekelijkse verkoop produceren. Het perceel wordt geproduceerd gebruikend seaborn.boxplot functie.

Een doos en een whiskerplot worden gebruikt om de verspreiding van gegevens te tonen. De buitenlijnen van het waarnemingspunt tonen de bovenste en onderste kwartiel, terwijl de doos het interkwartielbereik beslaat. De regel in het vak markeert de mediaan. Alle gegevenspunten die meer dan 1,5 keer het bovenste of onderste kwartiel bedragen, worden als een cirkel gemarkeerd. Deze punten worden beschouwd als uitschieters.

Meerdere grafieken

Meerdere percelen worden gebruikt om de interactie tussen variabelen te zien. Met de visualisatie kunnen wetenschappers van data zien of er correlaties of patronen zijn tussen de variabelen. Een veelgebruikte multivariate grafiek is een correlatiematrix. Met een correlatiematrix worden de afhankelijkheden tussen meerdere variabelen gekwantificeerd aan de hand van de correlatiecoëfficiënt.

Gebruikend de zelfde kleinhandelsdataset, kunnen wij de correlatiematrix produceren.

Merk op dat 1 diagonaal naar beneden is. Dit toont aan dat wanneer het vergelijken van een variabele aan zich, het volledige positieve correlatie heeft. Sterke positieve correlatie zal een grootte dichter bij 1 hebben, terwijl zwakke correlaties dichter bij 0 liggen. Een negatieve correlatie wordt aangetoond met een negatieve coëfficiënt die een omgekeerde trend laat zien.

Volgende stappen

In deze zelfstudie wordt uitgelegd hoe u een nieuw Jupyter-notebook maakt in de Data Science Workspace en hoe u toegang krijgt tot gegevens van buitenaf en van Adobe Experience Platform. We hebben met name de volgende stappen doorlopen:

  • Een nieuwe jupyter-laptop maken
  • Gegevensbestanden en schema's voor toegang
  • Gegevenssets verkennen

Nu ben je klaar om door te gaan naar de volgende sectie om een recept te verpakken en in de Werkruimte van de Wetenschap van Gegevens te importeren.

recommendation-more-help
cc79fe26-64da-411e-a6b9-5b650f53e4e9