Analyseer uw gegevens met behulp van laptops
Deze zelfstudie richt zich op het gebruik van Jupyter-laptops, gebouwd in Data Science Workspace, voor toegang tot, verkenning en visualisatie van uw gegevens. Tegen het einde van deze zelfstudie hebt u meer inzicht in enkele functies die Jupyter-laptops bieden om uw gegevens beter te begrijpen.
De volgende concepten worden geïntroduceerd:
- JupyterLab: JupyterLabis de volgende-generatie web-based interface voor Project Jupyter, en is strak geïntegreerd in Adobe Experience Platform.
- Gezichten: Datasets worden samengesteld uit partijen. Een batch is een reeks gegevens die over een bepaalde periode worden verzameld en samen als één eenheid worden verwerkt. Er worden nieuwe batches gemaakt wanneer gegevens aan een gegevensset worden toegevoegd.
- de Toegang SDK van Gegevens (afgekeurd): SDK van de Toegang van Gegevens is nu afgekeurd. Gebruik de handleiding Platform SDK .
Ontdek notebooks in Data Science Workspace
In deze sectie worden gegevens verkend die eerder in het detailhandelschema werden opgenomen.
Met Data Science Workspace kunnen gebruikers Jupyter Notebooks maken via het JupyterLab -platform, waar ze werkstromen voor machine learning kunnen maken en bewerken. JupyterLab is een hulpprogramma voor samenwerking tussen servers en clients waarmee gebruikers notitieboekdocumenten kunnen bewerken via een webbrowser. Deze laptops kunnen zowel uitvoerbare code als tekstelementen bevatten. Voor onze doeleinden gebruiken we Markdown voor analysebeschrijving en uitvoerbare Python -code om gegevensexploratie en -analyse uit te voeren.
De werkruimte kiezen
Bij het starten van JupyterLab wordt een webinterface weergegeven voor Jupyter-laptops. Afhankelijk van het type laptop dat we kiezen, wordt een corresponderende kernel gestart.
Bij het vergelijken van welke omgeving we moeten gebruiken, moeten we rekening houden met de beperkingen van elke service. Bijvoorbeeld, als wij de pandasbibliotheek met Python gebruiken, als regelmatige gebruiker is de grens van RAM 2 GB. Zelfs als energiegebruiker zouden we beperkt zijn tot 20 GB RAM. Als u werkt met grotere berekeningen, is het handig om Spark te gebruiken, dat 1,5 TB biedt dat wordt gedeeld met alle laptopexemplaren.
Standaard werkt Tensorflow-recept in een GPU-cluster en Python in een CPU-cluster.
Een nieuw notebook maken
Selecteer in de gebruikersinterface van Adobe Experience Platform de optie Data Science in het bovenste menu om naar de Data Science Workspace te gaan. Selecteer op deze pagina JupyterLab om de JupyterLab launcher te openen. U zou een pagina gelijkend op dit moeten zien.
In onze zelfstudie gebruiken we Python 3 in het Jupyter-notebook om te tonen hoe we de data kunnen bekijken. Op de pagina Launcher staan voorbeelden van laptops. We gebruiken het winkelrecept voor Python 3.
Het recept van de Verkoop van de Detailhandel is een standalone voorbeeld dat de zelfde Detailhandel dataset van de Verkoop gebruikt om te tonen hoe de gegevens in de Notitie van Jupyter kunnen worden onderzocht en worden visualiseerd. Bovendien gaat de laptop dieper in met training en verificatie. Meer informatie over dit specifieke notitieboekje kan in deze analyseworden gevonden.
Toegangsgegevens
data_access_sdk_python
is afgekeurd en wordt niet meer aanbevolen. Gelieve te verwijzen naar het omzetten van gegevenstoegang SDK in Platform SDKleerprogramma om uw code om te zetten. Voor deze zelfstudie gelden nog dezelfde stappen.We gaan over tot interne toegang tot gegevens van Adobe Experience Platform en externe gegevens. We gebruiken de data_access_sdk_python
-bibliotheek voor toegang tot interne gegevens, zoals gegevenssets en XDM-schema's. Voor externe gegevens gebruiken we de bibliotheek met panda's Python .
Externe gegevens
Open de Retail Sales-laptop en zoek de header "Load Data". De volgende Python code gebruikt pandas' DataFrame
gegevensstructuur en read_csv ()functie om CSV te lezen die op Github in DataFrame wordt ontvangen:
De gegevensstructuur van Pandas' DataFrame is een tweedimensionale gelabelde gegevensstructuur. We kunnen de df.shape
gebruiken om snel de afmetingen van onze gegevens te zien. Dit keert een tegel terug die de dimensionaliteit van DataFrame vertegenwoordigt:
Tot slot kunnen we eens bekijken hoe onze gegevens eruit zien. Met df.head(n)
kunt u de eerste n
rijen van het DataFrame weergeven:
Experience Platform gegevens
We gaan nu verder met het openen van Experience Platform data.
Op gegevensset-id
Voor deze sectie, gebruiken wij de Detailhandel dataset van de Verkoop die de zelfde dataset is in de de steekproefnotitie van de Verkoop wordt gebruikt.
In Jupyter Notitieboekje, kunt u tot uw gegevens van het Als u het tabblad selecteert, worden er twee mappen weergegeven. Selecteer de map Datasets .
Nu in de folder van Datasets, kunt u alle ingebedde datasets zien. Merk op dat het een minuut kan nemen om alle ingangen te laden als uw folder met datasets zwaar bevolkt is.
Aangezien de dataset het zelfde is, willen wij de ladingsgegevens van de vorige sectie vervangen die externe gegevens gebruikt. Selecteer het codeblok onder Gegevens van de Lading en druk tweemaal "d' sleutel op uw toetsenbord. Zorg ervoor dat de focus zich op het blok bevindt en niet in de tekst. U kunt "esc"drukken om de tekstnadruk te ontsnappen alvorens te drukken "d" tweemaal.
Nu, kunnen wij op de Retail-Training-<your-alias>
dataset met de rechtermuisknop klikken en de "Onderzoek Gegevens in Notitieboekje"optie in dropdown selecteren. Er wordt een uitvoerbaar code-item in uw notitieboekje weergegeven.
from data_access_sdk_python.reader import DataSetReader
from datetime import date
reader = DataSetReader()
df = reader.load(data_set_id="xxxxxxxx", ims_org="xxxxxxxx@AdobeOrg")
df.head()
Als u aan andere kernels buiten Python werkt, gelieve te verwijzen naar deze paginaom tot gegevens op Adobe Experience Platform toegang te hebben.
Als u de cel van het uitvoerbare bestand selecteert en vervolgens op de afspeelknop op de werkbalk drukt, wordt de uitvoerbare code uitgevoerd. De uitvoer voor head()
zal een lijst met de sleutels van uw dataset als kolommen en eerste n rijen in de dataset zijn. head()
accepteert een argument van het type integer om op te geven hoeveel regels moeten worden uitgevoerd. Standaard is dit 5.
Als u de kernel opnieuw opstart en alle cellen opnieuw uitvoert, krijgt u dezelfde uitvoer als voorheen.
Uw gegevens verkennen
Nu wij tot uw gegevens kunnen toegang hebben, laten wij nadruk op de gegevens zelf door statistieken en visualisatie te gebruiken. De dataset die wij gebruiken is een detailgegevensset die diverse informatie over 45 verschillende opslag op een bepaalde dag geeft. Enkele kenmerken voor een bepaalde date
en store
zijn:
storeType
weeklySales
storeSize
temperature
regionalFuelPrice
markDown
cpi
unemployment
isHoliday
Statistisch overzicht
Met Python’s pandas-bibliotheek kunnen we het gegevenstype van elk kenmerk ophalen. De output van de volgende vraag zal ons informatie over het aantal ingangen en het gegevenstype voor elk van de kolommen geven:
df.info()
Deze informatie is nuttig aangezien het weten van het gegevenstype voor elke kolom ons zal toelaten om te weten hoe te om de gegevens te behandelen.
Laten we nu eens kijken naar de statistische samenvatting. Alleen de numerieke gegevenstypen worden weergegeven, dus date
, storeType
en isHoliday
worden niet uitgevoerd:
df.describe()
We zien dat er 6435 gevallen zijn voor elk kenmerk. Daarnaast worden statistische informatie gegeven zoals gemiddelde, standaardafwijking (std), min, max en interkwartielen. Dit geeft ons informatie over de afwijking voor de gegevens. In de volgende sectie gaan we over tot visualisatie die samen met deze informatie werkt om ons een goed inzicht te geven in onze gegevens.
Als u de minimum- en maximumwaarden voor store
bekijkt, ziet u dat er 45 unieke opslagruimten zijn waarin de gegevens staan. Er zijn ook storeTypes
die differentiëren wat een winkel is. U kunt de verdeling van storeTypes
als volgt zien:
Dit betekent dat 22 winkels storeType
A
hebben, 17 storeType
B
en 6 storeType
C
zijn.
Datavisualisatie
Nu we onze dataframewaarden kennen, willen we dit aanvullen met visualisaties om dingen duidelijker te maken en het makkelijker te maken om patronen te herkennen. Grafieken zijn ook handig wanneer u resultaten overbrengt naar een publiek. Enkele Python -bibliotheken die handig zijn voor visualisatie zijn:
In deze sectie gaan we snel in op enkele voordelen van het gebruik van elke bibliotheek.
Matplotlibis het oudste Python visualisatiepakket. Hun doel is om "gemakkelijke en moeilijke dingen mogelijk te maken". Dit is meestal het geval omdat het pakket uiterst krachtig is, maar ook ingewikkeld. Het is niet altijd gemakkelijk om een redelijke grafiek te krijgen zonder veel tijd en moeite te nemen.
Pandaswordt hoofdzakelijk gebruikt voor zijn voorwerp DataFrame dat voor gegevensmanipulatie met geïntegreerde indexering toestaat. Panda's bevatten echter ook een ingebouwde functie voor het uitzetten van beelden die is gebaseerd op matplotlib.
seabornis een pakket bouwt bovenop matplotlib. Het hoofddoel is standaardgrafieken visueel aantrekkelijker te maken en het maken van gecompliceerde grafieken te vereenvoudigen.
gplotis een pakket dat ook bovenop matplotlib wordt gebouwd. Het belangrijkste verschil is echter dat het gereedschap een poort van ggplot2 is voor R. Vergelijkbaar met afbreken, is het doel om matplotlib te verbeteren. Gebruikers die bekend zijn met ggplot2 for R, moeten rekening houden met deze bibliotheek.
Univariate grafieken
Univariate grafieken zijn grafieken van een individuele variabele. Een algemene Univariate grafiek wordt gebruikt om je data te visualiseren is het vak en een whiskerplot.
Met onze dataset van tevoren kunnen we de doos en het whiskerplot genereren voor elk van de 45 winkels en hun wekelijkse verkoop. Het plot wordt gegenereerd met de functie seaborn.boxplot
.
Er wordt een kader en een whiskerplot gebruikt om de verspreiding van gegevens te tonen. De buitenste lijnen van het plot tonen de bovenste en onderste kwartielen, terwijl de doos het interkwartielbereik beslaat. De lijn in het vak markeert de mediaan. Elk gegevenspunt dat meer dan 1,5 keer het bovenste of onderste kwartiel bedraagt, wordt als een cirkel gemarkeerd. Deze punten worden beschouwd als uitschieters.
Multivariate grafieken
Multivariate percelen worden gebruikt om de interactie tussen variabelen te zien. Met de visualisatie kunnen datawetenschappers zien of er correlaties of patronen zijn tussen de variabelen. Een veelgebruikte multivariate grafiek is een correlatiematrix. Met een correlatiematrix worden de afhankelijkheden tussen meerdere variabelen gekwantificeerd aan de hand van de correlatiecoëfficiënt.
Gebruikend de zelfde kleinhandelsdataset, kunnen wij de correlatiematrix produceren.
Merk op dat 1 diagonaal naar beneden is. Dit toont aan dat wanneer het vergelijken van een variabele aan zich, het volledige positieve correlatie heeft. Sterke positieve correlatie zal een grootte dichter bij 1 hebben, terwijl zwakke correlaties dichter bij 0 liggen. Een negatieve correlatie wordt aangetoond met een negatieve coëfficiënt die een omgekeerde trend laat zien.
Volgende stappen
In deze zelfstudie wordt uitgelegd hoe u een nieuw Jupyter-notebook maakt in de Data Science Workspace en hoe u toegang krijgt tot gegevens zowel extern als vanuit Adobe Experience Platform . We hebben met name de volgende stappen doorlopen:
- Maak een nieuw Jupyter-notebook
- Gegevensbestanden en schema's voor toegang
- Gegevenssets verkennen
Nu bent u bereid om naar de volgende sectiete gaan om een recept te verpakken en in de Wetenschap van Gegevens Workspace in te voeren.