擷取批次資料

在本課程中,您將使用各種方法將批次資料擷取到Experience Platform中。

批次資料擷取可讓您將大量資料一次擷取到Adobe Experience Platform。 您可以在Platform介面中或使用API,一次上傳內嵌批次資料。 您也可以使用Source聯結器設定從協力廠商服務(例如雲端儲存服務)定期排程的批次上傳。

資料工程師 ​需要在此教學課程之外擷取批次資料。

在開始練習之前,請觀看此短片,以進一步瞭解資料擷取:

需要的許可權

設定許可權課程中,您已設定完成本課程所需的所有存取控制。

在「來源」練習中,您將需要存取(S) FTP伺服器或雲端儲存空間解決方案。 如果您沒有解決方法。

使用Platform使用者介面批次擷取資料

資料可以採用JSON和Parquet格式,直接上傳到資料集畫面上的資料集中。 這是建立「 」後測試部分資料擷取的絕佳方式

下載並準備資料

首先,取得範例資料並為您的租使用者自訂:

NOTE
luma-data.zip檔案中包含的資料是虛構的,僅供示範之用。
  1. luma-data.zip下載至您的​ Luma教學課程Assets ​資料夾。

  2. 解壓縮檔案,建立名為luma-data的資料夾,其中包含我們將在本課程中使用的四個資料檔案

  3. 在文字編輯器中開啟luma-loyalty.json,並以您自己的底線租使用者ID取代_techmarketingdemos的所有執行個體,如您自己的結構描述中所示:
    底線租使用者ID

  4. 儲存更新的檔案

擷取資料

  1. 在Platform使用者介面中,選取左側導覽中的​ 資料集

  2. 開啟您的Luma Loyalty Dataset

  3. 向下捲動,直到在右欄看到​ 新增資料 ​區段為止

  4. 上傳luma-loyalty.json檔案。

  5. 上傳檔案後,批次的列將出現

  6. 如果您在幾分鐘後重新載入頁面,應該會看到批次已成功上傳1000筆記錄和1000個設定檔片段。

    內嵌

NOTE
在本課程的各個熒幕中,您會看到一些選項,錯誤診斷 ​和​ 部分擷取。 本教學課程未涵蓋這些選項。 一些快速資訊:
  • 啟用錯誤診斷會產生有關資料擷取的資料,然後您可以使用資料存取API進行檢閱。 在檔案中進一步瞭解。
  • 部分擷取可讓您擷取包含錯誤的資料,最多可擷取您所能指定的特定臨界值。 在檔案中進一步瞭解

驗證資料

有幾種方式可確認資料已成功內嵌。

在Platform使用者介面中驗證

若要確認資料已擷取至資料集:

  1. 在您擷取資料的相同頁面上,選取右上方的​ 預覽資料集 ​按鈕

  2. 選取「預覽」按鈕,您應該能夠看到部分擷取的資料。

    預覽成功的資料集

若要確認資料是否著陸至設定檔(可能需要幾分鐘的時間才能讓資料著陸):

  1. 前往左側導覽中的​ 設定檔
  2. 選取​ 選取身分名稱空間 ​欄位旁的圖示以開啟強制回應視窗
  3. 選取您的Luma Loyalty Id名稱空間
  4. 然後輸入資料集中的loyaltyId值之一,5625458
  5. 選取​ 檢視
    確認資料集中的設定檔

使用資料擷取事件進行驗證

如果您訂閱了上一課程中的資料擷取事件,請檢查您獨特的webhook.site URL。 您應該會看到三個請求以下列順序顯示,中間有一些時間,並具有以下eventCode個值:

  1. ing_load_success — 已擷取的批次
  2. ig_load_success — 批次已擷取到身分圖表中
  3. ps_load_success — 批次已擷取到設定檔服務

資料擷取webhook

如需有關通知的詳細資訊,請參閱檔案

使用Platform API批次擷取資料

現在來使用API上傳資料。

NOTE
資料架構師可透過使用者介面方法來上傳CRM資料。

下載並準備資料

  1. 您應該已經下載luma-data.zip並將其解壓縮至您的Luma Tutorial Assets資料夾。
  2. 在文字編輯器中開啟luma-crm.json,並以您自己的底線租使用者ID取代_techmarketingdemos的所有執行個體(如您的結構描述中所示)
  3. 儲存更新的檔案

取得資料集ID

首先,我們取得要擷取資料的資料集ID的資料集ID:

  1. 開啟Postman
  2. 如果您沒有存取權杖,請開啟要求​ OAuth: Request Access Token,然後選取​ 傳送 ​來要求新的存取權杖,就像您在Postman課程中所做的一樣。
  3. 開啟您的環境變數,並確定​ CONTAINER_ID ​的值仍為tenant
  4. 開啟要求​ Catalog Service API > Datasets > Retrieve a list of datasets. ​並選取​ 傳送
  5. 您應該會收到200 OK回應
  6. 從回應本文複製Luma CRM Dataset的ID
    取得資料集ID

建立批次

現在,我們可以在資料集中建立批次:

  1. Data Ingestion API.postman_collection.json下載至您的Luma Tutorial Assets資料夾

  2. 將集合匯入Postman

  3. 選取要求​ Data Ingestion API > Batch Ingestion > Create a new batch in Catalog Service.

  4. 將下列內容貼上為請求的​ Body將datasetId值取代為您自己的

    code language-json
    {
        "datasetId":"REPLACE_WITH_YOUR_OWN_DATASETID",
        "inputFormat": {
            "format": "json"
        }
    }
    
  5. 選取​ 傳送 ​按鈕

  6. 您應該會收到包含新批次ID的「201已建立」回應!

  7. 複製新批次的id
    批次已建立

擷取資料

現在可以將資料上傳到批次中:

  1. 選取要求​ Data Ingestion API > Batch Ingestion > Upload a file to a dataset in a batch.

  2. 在​ Params ​索引標籤中,在各自的欄位中輸入您的資料集ID和批次ID

  3. 在​ 引數 ​索引標籤中,輸入luma-crm.json作為​ filePath

  4. 在​ 內文 ​索引標籤中,選取​ 二進位 ​選項

  5. 從您的本機Luma Tutorial Assets資料夾中選取下載的luma-crm.json

  6. 選取​ 傳送,您應該會在回應本文中取得包含「1」的200 OK回應

    資料已上傳

此時,如果您在Platform使用者介面中檢視您的批次,會看到它處於"正在載入"狀態:
批次載入

由於批次API通常用於上傳多個檔案,因此您需要在批次完成時通知Platform,我們將在下一個步驟中執行此操作。

完成批次

若要完成批次,請執行下列動作:

  1. 選取要求​ Data Ingestion API > Batch Ingestion > Finish uploading a file to a dataset in a batch.

  2. 在​ 引數 ​索引標籤中,輸入COMPLETE作為​ 動作

  3. 在​ 引數 ​索引標籤中,輸入您的批次ID。 如果資料集ID或filePath存在,您不必擔心。

  4. 確定POST的URL是https://platform.adobe.io/data/foundation/import/batches/:batchId?action=COMPLETE,並且沒有對datasetIdfilePath的任何不必要的參考

  5. 選取​ 傳送,您應該會在回應本文中取得包含「1」的200 OK回應

    批次完成

驗證資料

在Platform使用者介面中驗證

驗證資料已著陸至Platform使用者介面,就像您針對「忠誠度」資料集所做的一樣。

首先,確認批次顯示已擷取1000筆記錄:

批次成功

接下來,使用預覽資料集確認批次:

批次預覽

最後,透過依照Luma CRM Id名稱空間查詢其中一個設定檔(例如112ca06ed53d3db37e4cea49cc45b71e),確認已建立您的其中一個設定檔

已擷取的設定檔

我想指出一件剛發生的有趣事情。 開啟該Danny Wright設定檔。 設定檔同時有LumacrmidLumaloyaltyid。 記住Luma Loyalty Schema包含兩個身分欄位,即Luma忠誠度識別碼和CRM識別碼。 現在我們已上傳兩個資料集,將它們合併至單一設定檔。 熟客資料以Daniel為名字,以「New York City」為住家地址,而CRM資料以Danny為名字,以Portland為擁有相同熟客識別碼之客戶的住家地址。 我們將回到合併原則課程中名字顯示Danny的原因。

恭喜,您剛才已合併設定檔!

已合併的設定檔

使用資料擷取事件進行驗證

如果您訂閱了上一課程中的資料擷取事件,請檢查您獨特的webhook.site URL。 您應該會看到傳入三個請求,就像忠誠度資料一樣:

資料擷取webhook

如需有關通知的詳細資訊,請參閱檔案

使用工作流程內嵌資料

讓我們來看看另一種上傳資料的方式。 工作流程功能可讓您擷取尚未在XDM中模型化的CSV資料。

下載並準備資料

  1. 您應該已經下載luma-data.zip並將其解壓縮至您的Luma Tutorial Assets資料夾。
  2. 確認您擁有luma-products.csv

建立工作流程

現在來設定工作流程:

  1. 前往左側導覽中的​ 工作流程
  2. 選取​ 將CSV對應至XDM結構描述 ​並選取​ 啟動 ​按鈕
    啟動工作流程
  3. 選取您的Luma Product Catalog Dataset並選取​ 下一步 ​按鈕
    選取您的資料集
  4. 新增您下載的luma-products.csv檔案,並選取​ 下一步 ​按鈕
    選取您的資料集
  5. 現在您位於對應程式介面,在其中可以將來源資料(luma-products.csv檔案中的其中一個欄名稱)的欄位對應到目標結構描述中的XDM欄位。 在我們的範例中,欄名稱與結構描述欄位名稱足夠接近,因此對應程式能夠自動偵測正確的對應! 如果對應程式無法自動偵測正確的欄位,您可以選取目標欄位右側的圖示,以選取正確的XDM欄位。 此外,如果您不想從CSV擷取其中一欄,可以從對應工具中刪除該列。 您可以隨意玩耍和變更luma-products.csv中的欄標題,以熟悉對應程式的運作方式。
  6. 選取​ 完成 ​按鈕
    選取您的資料集

驗證資料

批次上傳後,請預覽資料集以驗證上傳。

由於Luma Product SKU是非人員名稱空間,因此我們將不會看到產品SKU的任何設定檔。

您應該會看到webhook的三個點選。

使用來源內嵌資料

好的,您做了艱苦的工作。 現在,讓我們進入​ 自動化 ​批次擷取的樂土! 當我說:「SET IT!」 您會說:「算了!」 「設定它!」 「算了!」 「設定它!」 「算了!」 開玩笑吧,你絕不會做這種事! 好的,繼續工作。 您即將完成。

前往左側導覽中的​ 來源 ​以開啟來源目錄。 在這裡,您會看到各種現成的整合功能,與領先業界的資料和儲存提供者整合。

Source目錄

好,讓我們使用來源聯結器來內嵌資料。

此練習將為您選擇自己的冒險風格。 我即將使用FTP來源聯結器顯示工作流程。 您可以使用貴公司使用的不同雲端儲存空間來源聯結器,或使用資料集使用者介面上傳json檔案,就像處理忠誠度資料一樣。

許多來源具有類似的設定工作流程,您可以在其中執行下列作業:

  1. 輸入您的驗證詳細資料
  2. 選取您要擷取的資料
  3. 選取您要擷取的Platform資料集
  4. 將欄位對應至您的XDM結構描述
  5. 選擇您要從該位置擷取資料的頻率
NOTE
我們在本練習中將使用的離線購買資料包含日期時間資料。 日期時間資料應該使用ISO 8061格式字串 ("2018-07-10T15:05:59.000-08:00")或以毫秒(1531263959000)為單位格式化的Unix時間,並在擷取時轉換為目標XDM型別。 如需資料轉換和其他限制的詳細資訊,請參閱批次擷取API檔案

下載、準備資料,並將其上傳到您偏好的雲端儲存空間供應商

  1. 您應該已經下載luma-data.zip並將其解壓縮至您的Luma Tutorial Assets資料夾。
  2. 在文字編輯器中開啟luma-offline-purchases.json,並以您自己的底線租使用者ID取代_techmarketingdemos的所有執行個體(如您的結構描述中所示)
  3. 更新所有時間戳記,以便事件發生在上個月(例如,搜尋"timestamp":"2022-06並取代年份和月份)
  4. 選擇您偏好的雲端儲存空間提供者,並確定其可在來源目錄中取得
  5. luma-offline-purchases.json上傳到您偏好的雲端儲存提供者中的位置

將資料內嵌至您偏好的雲端儲存位置

  1. 在Platform使用者介面中,將來源目錄篩選為​ 雲端儲存空間

  2. 請注意,...底下有便利的說明檔案連結

  3. 在您偏好的雲端儲存體廠商方塊中,選取​ 設定 ​按鈕
    選取設定

  4. 驗證 ​是第一個步驟。 輸入您帳戶的名稱,例如Luma's FTP Account和您的驗證詳細資料。 雖然欄位可能會稍有不同,但對於所有雲端儲存空間來源,此步驟應該相當類似。 輸入帳戶的驗證詳細資料後,您可以將其重複用於其他來源連線,這些連線可能會以不同排程傳送來自相同帳戶中其他檔案的不同資料

  5. 選取​ 連線到來源按鈕

  6. 當平台成功連線到Source時,請選取​ 下一步 ​按鈕
    驗證來源

  7. 在​ 選取資料 ​步驟中,使用者介面將使用您的認證開啟雲端儲存解決方案上的資料夾

  8. 選取您要擷取的檔案,例如luma-offline-purchases.json

  9. 以​ 資料格式,請選取XDM JSON

  10. 然後您可以預覽json結構和檔案中的範例資料

  11. 選取​ 下一步 ​按鈕
    選取您的資料檔

  12. 在​ 對應 ​步驟中,選取您的Luma Offline Purchase Events Dataset並選取​ 下一步 ​按鈕。 在訊息中請注意,由於我們要擷取的資料是JSON檔案,因此沒有我們將來源欄位對應到目標欄位的對應步驟。 JSON資料必須已位於XDM中。 如果您正在內嵌CSV,您會在這個步驟中看到完整對應使用者介面:
    選取您的資料集

  13. 在​ 排程 ​步驟中,您需選擇您要從Source中重新擷取資料的頻率。 請花點時間檢視選項。 我們即將執行一次性內嵌,因此請在​ Once ​保留​ Frequency,然後選取​ Next ​按鈕:
    排程您的資料流程

  14. 在​ 資料流詳細資料 ​步驟中,您可以選擇資料流的名稱、輸入選擇性說明、開啟錯誤診斷,以及部分擷取。 保持設定不變,並選取​ 下一步 ​按鈕:
    編輯資料流程的詳細資料

  15. 在​ 檢閱 ​步驟中,您可以同時檢閱所有設定並編輯它們,或選取​ 完成 ​按鈕

  16. 儲存後,您會如下所示進入畫面:
    完成

驗證資料

批次上傳後,請預覽資料集以驗證上傳。

您應該會看到webhook的三個點選。

再次在loyaltyId名稱空間中查詢值為5625458的設定檔,檢視其設定檔中是否有任何購買事件。 您應該會看到一次購買。 您可以選取​ 檢視JSON,深入瞭解購買的詳細資料:

個人檔案中的購買事件

ETL工具

與多個ETL廠商Adobe合作夥伴,以支援將資料擷取到Experience Platform。 由於協力廠商眾多,本教學課程不涵蓋ETL,不過歡迎您檢閱以下部分資源:

其他資源

現在讓我們使用Web SDK串流資料

recommendation-more-help
513160b6-bf42-4c58-abdd-4f817b1cccad