Introduzione

Prima di leggere questa guida, consulta la JupyterLab guida utente per un'introduzione di alto livello a JupyterLab e al suo ruolo in Data Science Workspace. Inoltre, se utilizzi i tuoi dati, consulta la documentazione di accesso ai dati in Jupyterlab blocchi appunti. Questa guida contiene informazioni importanti sui limiti dei dati dei notebook.

Questo blocco appunti utilizza un set di dati di valori medi sotto forma di dati Adobe Analytics Experience Events trovati nell’Analysis Workspace di Analytics. Per utilizzare il blocco appunti EDA, è necessario definire la tabella dati con i seguenti valori target_table e target_table_id. È possibile utilizzare qualsiasi set di dati di valori medi.

Per trovare questi valori, seguire i passaggi descritti nella sezione scrivere in un set di dati in python della guida all'accesso ai dati di JupyterLab. Il nome del set di dati (target_table) si trova nella directory del set di dati. Dopo aver fatto clic con il pulsante destro del mouse sul set di dati per esplorare o scrivere dati in un blocco appunti, nella voce di codice eseguibile viene fornito un ID del set di dati (target_table_id).

Individuazione dei dati

Questa sezione contiene passaggi di configurazione e query di esempio utilizzati per visualizzare tendenze quali le "dieci città principali per attività utente" o i "dieci prodotti visualizzati principali".

Configurazione delle librerie

JupyterLab supporta più librerie. Il codice seguente può essere incollato ed eseguito in una cella di codice per raccogliere e installare tutti i pacchetti richiesti utilizzati in questo esempio. Puoi utilizzare pacchetti aggiuntivi o alternativi al di fuori di questo esempio per l’analisi dei dati. Per un elenco dei pacchetti supportati, copiare e incollare !pip list --format=columns in una nuova cella.

!pip install colorama
import chart_studio.plotly as py
import plotly.graph_objs as go
from plotly.offline import iplot
from scipy import stats
import numpy as np
import warnings
warnings.filterwarnings('ignore')
from scipy.stats import pearsonr
import matplotlib.pyplot as plt
from scipy.stats import pearsonr
import pandas as pd
import math
import re
import seaborn as sns
from datetime import datetime
import colorama
from colorama import Fore, Style
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.width', 1000)
pd.set_option('display.expand_frame_repr', False)
pd.set_option('display.max_colwidth', -1)