文件 Experience Platform Data Science Workspace 指南

使用筆記型電腦分析資料

Last update: Wed Oct 29 2025 00:00:00 GMT+0000 (Coordinated Universal Time)

主題：
資料科學工作區

建立對象：

使用者
開發人員

NOTE

Data Science Workspace已無法購買。

本檔案旨在供先前有權使用Data Science Workspace的現有客戶使用。

本教學課程著重於如何使用內建於Data Science Workspace的Jupyter Notebooks，存取、探索及視覺化您的資料。在本教學課程結束時，您應該已經瞭解Jupyter Notebooks提供的部分功能，以便更清楚瞭解您的資料。

我們匯入了以下概念：

JupyterLab： JupyterLab是Project Jupyter的新世代Web介面，已緊密整合至Adobe Experience Platform。
批次：資料集是由批次組成。批次是指一段時間內收集的一組資料，並將作為一個單元一起處理。將資料新增到資料集時，會建立新的批次。
資料存取SDK （已棄用）：資料存取SDK現已棄用。請使用Experience Platform SDK指南。

在資料科學Workspace中探索筆記本

本節會探索先前內嵌至零售銷售綱要的資料。

資料科學Workspace可讓使用者透過Jupyter Notebooks平台建立JupyterLab，以便建立和編輯機器學習工作流程。 JupyterLab是伺服器使用者端共同作業工具，可讓使用者透過網頁瀏覽器編輯筆記本檔案。這些筆記本可以包含可執行程式碼和RTF元素。為了我們的目的，我們將使用Markdown進行分析描述，以及可執行的Python程式碼來執行資料探索和分析。

選擇您的工作區

啟動JupyterLab時，會顯示Jupyter Notebooks的網頁式介面。根據我們選取的筆記型電腦型別，將會啟動對應的核心。

在比較要使用的環境時，我們必須考量每個服務的限制。例如，如果我們使用熊貓資料庫搭配Python，作為一般使用者，RAM限製為2 GB。即使身為進階使用者，RAM容量限製為20 GB。如果處理較大的計算，則最好使用Spark，它提供1.5 TB與所有筆記本執行個體共用。

依預設，Tensorflow配方會在GPU叢集中運作，而Python會在CPU叢集中執行。

建立新的筆記本

在Adobe Experience Platform UI中，選取頂端功能表中的Data Science，帶您前往資料科學Workspace。從此頁面，選取JupyterLab以開啟JupyterLab啟動器。您應該會看到類似此的頁面。

在教學課程中，我們將使用Jupyter Notebook中的Python 3來示範如何存取及探索資料。在啟動器頁面中，提供範例筆記本。我們將使用Python 3的零售配方。

零售銷售方式是獨立的範例，此範例使用相同的零售銷售資料集來顯示如何在Jupyter Notebook中探索和視覺化資料。此外，筆記型電腦在訓練與驗證方面更深入。如需此特定筆記本的詳細資訊，請參閱此逐步說明。

存取資料

NOTE

data_access_sdk_python已過時，不再建議使用。若要轉換您的程式碼，請參閱將資料存取SDK轉換為Experience Platform SDK教學課程。本教學課程仍適用下列相同步驟。

我們將從Adobe Experience Platform內部存取資料，並從外部存取資料。我們將使用data_access_sdk_python資料庫來存取內部資料，例如資料集和XDM結構描述。對於外部資料，我們將使用熊貓Python資料庫。

外部資料

開啟零售銷售筆記本後，尋找「載入資料」標頭。下列Python程式碼使用熊貓DataFrame資料結構和read_csv()函式，將Github上託管的CSV讀取至DataFrame中：

熊貓的DataFrame資料結構是2維標籤資料結構。若要快速檢視資料的維度，我們可以使用df.shape。這會傳回代表DataFrame維度的Tuple：

最後，我們可以檢視資料的外觀。我們可以使用df.head(n)來檢視DataFrame的前n列：

Experience Platform資料

現在，我們將再次存取Experience Platform資料。

依資料集ID

針對本節，我們使用「零售業」資料集，此資料集與「零售業」範例筆記本中使用的資料集相同。

在Jupyter Notebook中，您可以從左側的資料標籤存取您的資料。選取索引標籤後，會提供兩個資料夾。選取 Datasets 資料夾。

現在在資料集目錄中，您可以看到所有擷取的資料集。請注意，如果您的目錄大量填入資料集，載入所有專案可能需要幾分鐘的時間。

由於資料集相同，我們想取代使用外部資料的上一個區段的載入資料。在 載入資料 下選取程式碼區塊，然後按兩次鍵盤上的 'd' 鍵。請確定焦點在區塊上，而不是文字中。您可以按下 'esc' 來逸出文字焦點，然後再按兩次'd'。

現在，我們可以在Retail-Training-<your-alias>資料集上按一下滑鼠右鍵，然後在下拉式清單中選取「在筆記本中探索資料」選項。您的記事本中將會顯示可執行程式碼專案。

TIP

請參閱Experience Platform SDK指南以轉換您的程式碼。

from data_access_sdk_python.reader import DataSetReader
from datetime import date
reader = DataSetReader()
df = reader.load(data_set_id="xxxxxxxx", ims_org="xxxxxxxx@AdobeOrg")
df.head()

如果您正在處理Python以外的其他核心，請參閱此頁面以存取Adobe Experience Platform上的資料。

選取可執行儲存格，然後按工具列中的播放按鈕，即可執行可執行程式碼。 head()的輸出會是資料表，以資料集的索引鍵作為欄，以及資料集中的前n列。 head()接受整數引數，以指定要輸出的行數。預設值為5。

如果您重新啟動核心並再次執行所有儲存格，您應該會取得與之前相同的輸出。

探索您的資料

現在我們可以存取您的資料了，接下來讓我們使用統計和視覺效果來關注資料本身。我們使用的資料集是零售資料集，提供指定日期45個不同商店的其他資訊。指定date和store的某些特性包括：

storeType
weeklySales
storeSize
temperature
regionalFuelPrice
markDown
cpi
unemployment
isHoliday

統計摘要

我們可以利用Python’s熊貓資料庫來取得每個屬性的資料型別。以下呼叫的輸出會提供每個欄的專案數和資料型別的相關資訊：

df.info()

此資訊很有用，因為知道每欄的資料型別能讓我們知道如何處理資料。

現在來看看統計摘要。只會顯示數值資料型別，所以不會輸出date、storeType和isHoliday：

df.describe()

透過這項分析，我們可以看到每個特性有6435個例項。此外，也會提供平均值、標準差(std)、最小值、最大值以及四分位數等統計資訊。這可提供資料偏差的相關資訊。在下一節中，我們將介紹視覺效果，視覺效果會搭配此資訊使用，讓我們對資料有良好的瞭解。

檢視store的最小值和最大值，我們可以看到資料代表有45個唯一存放區。還有storeTypes可區分商店的性質。我們可以執行下列動作來檢視storeTypes的分佈：

這表示22個存放區屬於storeType A，17個為storeType B，6個為storeType C。

資料視覺效果

現在我們知道資料框架值了，我們想透過視覺效果來補充這些值，讓事情變得更清晰、更易於識別模式。將結果傳送給對象時，圖表也很有用。有些Python資料庫適合用於視覺化，包括：

在本節中，我們將快速說明使用每個程式庫的一些優點。

Matplotlib是最舊的Python視覺化封裝。他們的目標是讓「簡單的事情變得容易，而困難的事情變得可能」。由於套裝軟體功能極為強大，但同時也伴隨著複雜性，因此上述假設通常成立。要取得看起來合理的圖表，而不需要花費大量的時間和精力，並不總是那麼容易。

熊貓主要用於其DataFrame物件，允許透過整合索引進行資料操作。不過，熊貓也包含以matplotlib為基礎的內建繪圖功能。

seaborn是位於matplotlib之上的封裝組建。其主要目標是讓預設圖表更吸引目光，並簡化建立複雜圖表的流程。

ggplot也是在matplotlib上建置的套件。不過，主要差異在於此工具是R的ggplot2連線埠。與seaborn類似，目標是改善matplotlib。熟悉R的ggplot2的使用者應考慮此資料庫。

單變數圖表

單變數圖表是個別變數的圖表。常見的單變數圖表是用來視覺化您的資料，例如方塊和鬍鬚圖。

使用之前的零售資料集，我們可以為45家商店及其每週銷售額分別產生盒子和鬍鬚圖。使用seaborn.boxplot函式產生繪圖。

方塊和須狀圖可用來顯示資料的分佈。繪圖的外線顯示上四分位元和下四分位元，而方塊橫跨四分位元範圍。方塊中的行會標籤中位數。任何超過四分位數上下1.5倍的資料點都會標示為圓形。這些點會被視為離群值。

多變數圖表

多變數繪圖是用來檢視變數之間的互動。藉由視覺效果，資料科學家就能檢視變數之間是否有任何關聯或模式。常用的多變數圖表是關聯矩陣。使用關聯矩陣時，多個變數之間的相依性會以關聯係數量化。

使用相同的零售資料集，我們便可產生關聯矩陣。

請注意中心對角線1的向下。這表示將變數與其本身進行比較時，變數具有完全的正相關性。強正相關具有更接近1的量級，而弱相關將更接近0。負相關以負係數顯示，顯示反向趨勢。

後續步驟

本教學課程說明如何在資料科學Workspace中建立新的Jupyter Notebook，以及如何從外部和從Adobe Experience Platform存取資料。具體來說，我們已進行下列步驟：

建立新的Jupyter Notebook
存取資料集和結構描述
探索資料集

現在您已準備好繼續進行下一節，以封裝配方並匯入資料科學Workspace。

recommendation-more-help

cc79fe26-64da-411e-a6b9-5b650f53e4e9