擷取批次資料
在本課程中,您將使用各種方法將批次資料擷取到Experience Platform中。
批次資料擷取可讓您將大量資料一次擷取到Adobe Experience Platform。 您可以在Platform介面中或使用API,一次上傳內嵌批次資料。 您也可以使用來源聯結器設定從第三方服務(例如雲端儲存服務)定期排程的批次上傳。
資料工程師 需要在本教學課程之外擷取批次資料。
在開始練習之前,請觀看此短片,以進一步瞭解資料擷取:
需要的許可權
在 設定許可權 課程,您已設定完成本課程所需的所有存取控制項。
在「來源」練習中,您將需要存取(S) FTP伺服器或雲端儲存空間解決方案。 如果您沒有解決方法。
使用Platform使用者介面批次擷取資料
資料可以採用JSON和Parquet格式,直接上傳到資料集畫面上的資料集中。 這是建立「 」後測試部分資料擷取的絕佳方式
下載並準備資料
首先,取得範例資料並為您的租使用者自訂:
-
下載 luma-data.zip 至您的 Luma教學課程資產 資料夾。
-
解壓縮檔案,建立名為的資料夾
luma-data
其中包含我們在本課程中會使用的四個資料檔案 -
開啟
luma-loyalty.json
在文字編輯器中並取代所有例項_techmarketingdemos
使用您自己的底線租使用者id,如您自己的結構描述中所示:
-
儲存更新的檔案
擷取資料
-
在Platform使用者介面中選取 資料集 在左側導覽列中
-
開啟您的
Luma Loyalty Dataset
-
向下捲動,直到您看到 新增資料 區段在右欄
-
上傳
luma-loyalty.json
檔案。 -
上傳檔案後,批次的列將出現
-
如果您在幾分鐘後重新載入頁面,應該會看到批次已成功上傳1000筆記錄和1000個設定檔片段。
驗證資料
有幾種方式可確認資料已成功內嵌。
在Platform使用者介面中驗證
若要確認資料已擷取至資料集:
-
在您擷取資料的相同頁面上,選取 預覽資料集 右上角的按鈕
-
選取 預覽 按鈕,您應該能夠檢視一些擷取的資料。
若要確認資料是否著陸至設定檔(可能需要幾分鐘的時間才能讓資料著陸):
- 前往 設定檔 在左側導覽列中
- 選取「 」旁的圖示 選取身分名稱空間 欄位以開啟強制回應視窗
- 選取您的
Luma Loyalty Id
名稱空間 - 然後輸入其中一項
loyaltyId
資料集中的值,5625458
- 選取 檢視
使用資料擷取事件進行驗證
如果您訂閱了上一課程中的資料擷取事件,請檢查您獨特的webhook.site URL。 您應該會看到三個請求以下列順序顯示,中間有一些時間,如下所示 eventCode
值:
ing_load_success
— 擷取的批次ig_load_success
— 批次已擷取到身分圖表中ps_load_success
— 批次已擷取到設定檔服務
請參閱 檔案 以取得有關通知的詳細資訊。
使用Platform API批次擷取資料
現在來使用API上傳資料。
下載並準備資料
- 您應該已經下載並解壓縮 luma-data.zip 至您的
Luma Tutorial Assets
資料夾。 - 開啟
luma-crm.json
在文字編輯器中並取代所有例項_techmarketingdemos
使用您自己的底線租使用者id,如您的結構描述中所示 - 儲存更新的檔案
取得資料集ID
首先,我們取得要擷取資料的資料集ID的資料集ID:
- 開啟 Postman
- 如果您沒有存取權杖,請開啟請求 OAuth: Request Access Token 並選取 傳送 以請求新的存取Token,就像您在 Postman 課程。
- 開啟您的環境變數,並確認值 CONTAINER_ID 仍為
tenant
- 開啟請求 Catalog Service API > Datasets > Retrieve a list of datasets. 並選取 傳送
- 您應該會收到
200 OK
回應 - 複製的ID
Luma CRM Dataset
來自回應內文
建立批次
現在,我們可以在資料集中建立批次:
-
下載 資料擷取API.postman_collection.json 至您的
Luma Tutorial Assets
資料夾 -
將集合匯入 Postman
-
選取請求 Data Ingestion API > Batch Ingestion > Create a new batch in Catalog Service.
-
貼上下列內容作為 內文 請求的, 將datasetId值取代為您自己的值:
code language-json { "datasetId":"REPLACE_WITH_YOUR_OWN_DATASETID", "inputFormat": { "format": "json" } }
-
選取 傳送 按鈕
-
您應該會收到包含新批次ID的「201已建立」回應!
-
複製
id
新批次的
擷取資料
現在可以將資料上傳到批次中:
-
選取請求 Data Ingestion API > Batch Ingestion > Upload a file to a dataset in a batch.
-
在 引數 索引標籤中,在各自的欄位中輸入您的資料集id和批次id
-
在 引數 tab,輸入
luma-crm.json
作為 檔案路徑 -
在 內文 索引標籤中,選取 二進位 選項
-
選取下載的
luma-crm.json
從您的本機Luma Tutorial Assets
資料夾 -
選取 傳送 而且您應該在回應本文中取得包含「1」的200 OK回應
此時,如果您在Platform使用者介面中檢視批次,您會看到批次位於「正在載入「狀態:
由於批次API通常用於上傳多個檔案,因此您需要在批次完成時通知Platform,我們將在下一個步驟中執行此操作。
完成批次
若要完成批次,請執行下列動作:
-
選取請求 Data Ingestion API > Batch Ingestion > Finish uploading a file to a dataset in a batch.
-
在 引數 tab,輸入
COMPLETE
作為 動作 -
在 引數 標籤,輸入您的批次id。 如果資料集ID或filePath存在,您不必擔心。
-
確認POST的URL為
https://platform.adobe.io/data/foundation/import/batches/:batchId?action=COMPLETE
且沒有任何不必要的參考資料至datasetId
或filePath
-
選取 傳送 而且您應該在回應本文中取得包含「1」的200 OK回應
驗證資料
在Platform使用者介面中驗證
驗證資料已著陸至Platform使用者介面,就像您針對「忠誠度」資料集所做的一樣。
首先,確認批次顯示已擷取1000筆記錄:
接下來,使用預覽資料集確認批次:
最後,透過查詢您的其中一個設定檔,確認已建立其中一個設定檔 Luma CRM Id
名稱空間,例如 112ca06ed53d3db37e4cea49cc45b71e
我想指出一件剛發生的有趣事情。 開啟該 Danny Wright
設定檔。 設定檔同時具有 Lumacrmid
和 Lumaloyaltyid
. 記住 Luma Loyalty Schema
包含兩個身分欄位,Luma忠誠度ID和CRM ID。 現在我們已上傳兩個資料集,將它們合併至單一設定檔。 熟客資料已 Daniel
以「New York City」為名字,以「New York City」為住家地址,而CRM資料則以 Danny
作為名字和 Portland
作為具有相同忠誠度識別碼之客戶的住家地址。 我們將回到名字顯示的原因 Danny
合併原則課程中。
恭喜,您剛才已合併設定檔!
使用資料擷取事件進行驗證
如果您訂閱了上一課程中的資料擷取事件,請檢查您獨特的webhook.site URL。 您應該會看到傳入三個請求,就像忠誠度資料一樣:
請參閱 檔案 以取得有關通知的詳細資訊。
使用工作流程內嵌資料
讓我們來看看另一種上傳資料的方式。 工作流程功能可讓您擷取尚未在XDM中模型化的CSV資料。
下載並準備資料
- 您應該已經下載並解壓縮 luma-data.zip 至您的
Luma Tutorial Assets
資料夾。 - 確認您擁有
luma-products.csv
建立工作流程
現在來設定工作流程:
- 前往 工作流程 在左側導覽列中
- 選取 將CSV對應至XDM結構描述 並選取 Launch 按鈕
- 選取您的
Luma Product Catalog Dataset
並選取 下一個 按鈕
- 新增
luma-products.csv
您下載的檔案並選取 下一個 按鈕
- 現在您位於對映器介面,您可以在其中對映來源資料(中的欄名稱之一)的欄位。
luma-products.csv
檔案)的XDM欄位中重新命名。 在我們的範例中,欄名稱與結構描述欄位名稱足夠接近,因此對應程式能夠自動偵測正確的對應! 如果對應程式無法自動偵測正確的欄位,您可以選取目標欄位右側的圖示,以選取正確的XDM欄位。 此外,如果您不想從CSV擷取其中一欄,可以從對應工具中刪除該列。 您可以盡情實驗和變更中的欄標題luma-products.csv
以熟悉對應程式的運作方式。 - 選取 完成 按鈕
驗證資料
批次上傳後,請預覽資料集以驗證上傳。
由於 Luma Product SKU
是非人員名稱空間,我們將不會看到產品sku的任何設定檔。
您應該會看到webhook的三個點選。
使用來源內嵌資料
好的,您做了艱苦的工作。 現在,讓我們進入的樂土 自動化 批次擷取! 當我說:「SET IT!」 您會說:「算了!」 「設定它!」 「算了!」 「設定它!」 「算了!」 開玩笑吧,你絕不會做這種事! 好的,繼續工作。 您即將完成。
前往 來源 在左側導覽中開啟「來源」目錄。 在這裡,您會看到各種現成的整合功能,與領先業界的資料和儲存提供者整合。
好,讓我們使用來源聯結器來內嵌資料。
此練習將為您選擇自己的冒險風格。 我即將使用FTP來源聯結器顯示工作流程。 您可以使用貴公司使用的不同雲端儲存空間來源聯結器,或使用資料集使用者介面上傳json檔案,就像處理忠誠度資料一樣。
許多來源具有類似的設定工作流程,您可以在其中執行下列作業:
- 輸入您的驗證詳細資料
- 選取您要擷取的資料
- 選取您要擷取的Platform資料集
- 將欄位對應至您的XDM結構描述
- 選擇您要從該位置擷取資料的頻率
下載、準備資料,並將其上傳到您偏好的雲端儲存空間供應商
- 您應該已經下載並解壓縮 luma-data.zip 至您的
Luma Tutorial Assets
資料夾。 - 開啟
luma-offline-purchases.json
在文字編輯器中並取代所有例項_techmarketingdemos
使用您自己的底線租使用者id,如您的結構描述中所示 - 更新所有時間戳記,讓事件在上個月發生(例如,搜尋
"timestamp":"2022-06
並取代年和月) - 選擇您偏好的雲端儲存空間提供者,並確定它位於 來源 目錄
- 上傳
luma-offline-purchases.json
至您偏好的雲端儲存空間提供者中的位置
將資料內嵌至您偏好的雲端儲存位置
-
在Platform使用者介面,篩選 來源 目錄至 雲端儲存空間
-
請注意,底下的檔案連結很方便
...
-
在您偏好的雲端儲存空間廠商的方塊中,選取 設定 按鈕
-
驗證 是第一步。 輸入帳戶名稱,例如
Luma's FTP Account
以及您的驗證詳細資料。 雖然欄位可能會稍有不同,但對於所有雲端儲存空間來源,此步驟應該相當類似。 輸入帳戶的驗證詳細資料後,您可以將其重複用於其他來源連線,這些連線可能會以不同排程傳送來自相同帳戶中其他檔案的不同資料 -
選取 連線到來源按鈕
-
當Platform成功連線到來源時,請選取 下一個 按鈕
-
在 選取資料 步驟,使用者介面將使用您的憑證開啟雲端儲存解決方案上的資料夾
-
選取您要擷取的檔案,例如
luma-offline-purchases.json
-
作為 資料格式,選取
XDM JSON
-
然後您可以預覽json結構和檔案中的範例資料
-
選取 下一個 按鈕
-
在 對應 步驟,選取您的
Luma Offline Purchase Events Dataset
並選取 下一個 按鈕。 在訊息中請注意,由於我們要擷取的資料是JSON檔案,因此沒有我們將來源欄位對應到目標欄位的對應步驟。 JSON資料必須已位於XDM中。 如果您正在內嵌CSV,您會在這個步驟中看到完整對應使用者介面:
-
在 正在排程 步驟,您可以選擇從來源擷取資料的頻率。 請花點時間檢視選項。 我們即將執行一次性內嵌,因此請將 頻率 於 一次 並選取 下一個 按鈕:
-
在 資料流詳細資料 步驟,您可以選擇資料流的名稱、輸入選用的說明、開啟錯誤診斷,以及部分擷取。 維持設定不變,並選取 下一個 按鈕:
-
在 檢閱 步驟,您可以一起檢閱所有設定並編輯它們或選取 完成 按鈕
-
儲存後,您會如下所示進入畫面:
驗證資料
批次上傳後,請預覽資料集以驗證上傳。
您應該會看到webhook的三個點選。
使用值查詢設定檔 5625458
在 loyaltyId
再次檢視名稱空間,檢視其設定檔中是否有任何購買事件。 您應該會看到一次購買。 您可以選取「 」,深入瞭解購買的詳細資料 檢視JSON:
ETL工具
與多個ETL廠商Adobe合作夥伴,以支援將資料擷取到Experience Platform。 由於協力廠商眾多,本教學課程不涵蓋ETL,不過歡迎您檢閱以下部分資源:
其他資源
現在,讓 使用Web SDK串流資料