去重複化

重複資料刪除會從入站活動的結果中刪除重複專案。 可在電子郵件地址、電話號碼或其他欄位上執行重複資料刪除。

Deduplication activity用於從資料集中移除重複列。 例如,下列記錄可能被視為重複,因為它們有相同的電子郵件地址和相同的行動和/或住家電話。

上次修改日期 名字 姓氏 電子郵件 行動電話 電話
02/03/2020 Bob Tisner bob@mycompany.com 444-444-4444 888-888-8888
05/19/2020 Robert Tisner bob@mycompany.com 444-444-4444 777-777-7777
07/22/2020 Bobby Tisner bob@mycompany.com 444-444-4444 777-777-7777

Deduplication 活動可在識別重複專案後,保留整列作為唯一記錄。 例如,在上述使用案例中,如果活動設定為僅保留具有最舊記錄的記錄 Date,結果會是:

日期 名字 姓氏 電子郵件 行動電話 電話
02/03/2020 Bob Tisner bob@mycompany.com 444-444-4444 888-888-8888

選取的主要記錄將結轉資料,不會將欄位資料與重複列中的其他相關資料進行任何合併。

補充:

日期 名字 姓氏 電子郵件 行動電話 電話
05/19/2020 Robert Tisner bob@mycompany.com 444-444-4444 777-777-7777
07/22/2020 Bobby Tisner bob@mycompany.com 444-444-4444 777-777-7777

最佳實務

在重複資料刪除期間,會個別處理傳入資料流。 例如,如果在查詢1的結果中以及在查詢2的結果中找到收件者A,則不會進行重複資料刪除。

此問題需要透過以下方式解決:

  • 建立 聯集 活動以統一每個入站流程。
  • 建立 重複資料刪除 活動晚於 聯集 活動。

設定

若要設定重複資料刪除,請輸入其標籤、方法和重複資料刪除條件,以及有關結果的選項。

  1. 按一下 Edit configuration… 定義重複資料刪除模式的連結。

  2. 選取此活動的目標型別(依預設,重複資料刪除會連結至收件者)以及要使用的條件,也就是可讓您識別重複專案的相同值欄位。

    注意

    如果您使用外部資料作為輸入(例如來自外部檔案),請務必選取 Temporary schema 選項。

    在下一步中, Other 選項可讓您選取要使用的條件:

  3. 在下一步中, Other 選項可讓您選取在值相同的情況下要使用的條件。

  4. 從下拉式清單中,選取要使用的重複資料刪除方法,然後輸入要保留的重複專案數量。

    可使用下列方法:

    • Choose for me:隨機選取要保留在重複項目外的記錄。

    • Following a list of values:可讓您定義一或多個欄位的值優先順序。若要定義值,請選取欄位或建立運算式,然後將值新增至適當的資料表中。若要定義新欄位,請按一下值清單上方的 Add 按鈕。

    • Non-empty value:您可以保留所選運算式的值不為空白的記錄作為優先順序。

    • Using an expression:可讓您使用指定運算式的最低(或最高)值來保留記錄。

    注意

    Merge 功能,可透過 Advanced parameters 連結,可讓您設定一組規則,以將欄位或欄位群組合併為單一結果資料記錄。 如需詳細資訊,請參閱 將欄位合併為單一記錄.

  5. 按一下 Finish 以核准選取的重複資料刪除方法。

    視窗的中間區段會摘要列出定義的組態。

    在活動編輯器視窗的下半部,您可以修改圖形物件的出站轉變標籤,並輸入與活動結果相關聯的區段代碼。 此程式碼稍後可當作目標定位准則使用。

  6. 檢查 Generate complement 選項(如果要利用剩餘母體)。 補充包含所有重複專案。 隨後會將其他轉變新增至活動,如下所示:

範例:在傳遞之前識別重複專案

在以下範例中,重複資料刪除與三個查詢的聯集有關。

工作流程的目的是透過排除重複專案來定義傳遞的目標,以避免將其多次傳送給相同的收件者。

已識別的重複專案也將整合到專用的重複專案清單中,必要時可重複使用。

  1. 新增並連結工作流程運作所需的各種活動,如上所示。

    此處的聯合活動用於將三個查詢「統一」成一個單一轉變。 因此,重複資料刪除不適用於個別查詢,但適用於整個查詢。 有關本主題的詳細資訊,請參閱 最佳實務.

  2. 開啟重複資料刪除活動,然後按一下 Edit configuration… 定義重複資料刪除模式的連結。

  3. 在新視窗中,選取 Database schema.

  4. 選取 收件者 做為定位和篩選維度。

  5. 選取的ID欄位 Email 重複,只將傳遞傳送給每個電子郵件地址一次,然後按一下 Next.

    如果您希望複製ID以特定欄位為基礎,請選取 Other 以存取可用欄位清單。

  6. 選擇此項可在多個收件者識別相同電子郵件地址時,只保留一個專案。

  7. 選取 Choose for me 重複資料刪除模式,以便隨機選擇在已識別重複專案的情況下儲存的記錄,然後按一下 Finish.

執行工作流程時,所有識別為重複專案的收件者都會從結果(以及傳遞)中排除,並新增至重複專案清單中。 此清單可再次使用,而不需要重新識別重複專案。

將欄位合併為單一資料記錄

Merge 功能可讓您設定一組重複資料刪除規則,以定義要合併成單一結果資料記錄的欄位或欄位群組。

例如,如果有一組重複記錄,您可以選擇保留最舊的電話號碼或最新的名稱。

以下提供運用此功能的使用案例: 本節.

要執行此操作,請依照下列步驟執行:

  1. Deduplication method 選取步驟,按一下 Advanced Parameters 連結。

  2. 選取 Merge records 啟用功能的選項。

    如果您想要在每個合併條件中將多個資料欄位分組,請啟動 Use several record merging criteria 選項。

  3. 啟動功能後, Merge 索引標籤已新增至 Deduplication 活動。 它可讓您定義要合併的欄位群組及其相關規則。

    如需詳細資訊,請參閱以下提供的專用使用案例: 本節.

輸入引數

  • tableName
  • 綱要

每個傳入事件都必須指定由這些引數定義的目標。

輸出引數

  • tableName
  • 綱要
  • recCount

這組三個值會識別重複資料刪除所產生的目標。 tableName 是儲存目標識別碼的表格名稱, schema 為母體的結構描述(通常為nms:recipient)和 recCount 是表格中的元素數量。

與補碼關聯的轉變具有相同的引數。

本頁內容