去重複化 deduplication
重複資料刪除會從入站活動的結果中刪除重複專案。 可在電子郵件地址、電話號碼或其他欄位上執行重複資料刪除。
Deduplication 活動用於從資料集中移除重複資料列。 例如,下列記錄可能會被視為重複,因為它們有相同的電子郵件地址和相同的行動和/或住家電話。
Deduplication 活動可在識別重複專案後,保留整列作為唯一記錄。 例如,在上述使用案例中,如果活動設定為只保留具有最舊 Date 的記錄,則結果會是:
選取的主要記錄將結轉資料,不會將欄位資料與重複列中的其他相關資料進行任何合併。
補充:
最佳實務 best-practices
在重複資料刪除期間,會個別處理傳入資料流。 例如,如果在查詢1的結果中以及在查詢2的結果中找到收件者A,則不會進行重複資料刪除。
此問題需要透過以下方式解決:
- 建立 聯集 活動以統一每個傳入流量。
- 在 聯合 活動後建立 重複資料刪除 活動。
設定 configuration
若要設定重複資料刪除,請輸入其標籤、方法和重複資料刪除條件,以及有關結果的選項。
-
按一下 Edit configuration… 連結以定義重複資料刪除模式。
-
選取此活動的目標型別(預設情況下,重複資料刪除會連結至收件者)以及要使用的條件,即允許您識別重複專案的相同值欄位。
note note NOTE 如果您使用外部資料作為輸入(例如來自外部檔案),請務必選取 Temporary schema 選項。 在下一步中,Other 選項可讓您選取要使用的條件或條件: -
在下一步中,Other 選項可讓您選取在值相同的情況下要使用的准則或准則。
-
從下拉式清單中,選取要使用的重複資料刪除方法,然後輸入要保留的重複專案數。
可以使用下列方法:
-
Choose for me:隨機選取要保留在重複項目外的記錄。
-
Following a list of values:可讓您定義一或多個欄位的值優先順序。若要定義值,請選取欄位或建立運算式,然後將值新增至適當的資料表中。若要定義新欄位,請按一下值清單上方的 Add 按鈕。
-
Non-empty value:您可以保留所選運算式的值不為空白的記錄作為優先順序。
-
Using an expression:可讓您保留具有指定運算式之最低(或最高)值的記錄。
note note NOTE 可透過 Advanced parameters 連結存取的 Merge 功能可讓您設定一組規則,以便將欄位或欄位群組合併為單一結果資料記錄。 如需詳細資訊,請參閱將欄位合併為單一記錄。 -
-
按一下 Finish 以核准選取的重複資料刪除方法。
視窗的中間區段會摘要列出定義的組態。
在活動編輯器視窗的下半部,您可以修改圖形物件出站轉變的標籤,並輸入與活動結果相關聯的區段代碼。 此程式碼稍後可當作鎖定目標條件使用。
-
如果要利用剩餘母體,請核取 Generate complement 選項。 補充包含所有重複專案。 隨後會將其他轉變新增至活動,如下所示:
範例:在傳遞之前識別重複專案 example--identify-the-duplicates-before-a-delivery
在以下範例中,重複資料刪除與三個查詢的聯合有關。
工作流程的目的是透過排除重複專案來定義傳遞的目標,以避免將其多次傳送給相同的收件者。
已識別的重複專案也會整合到專用的重複專案清單中,以便視需要重複使用。
-
新增並連結工作流程運作所需的各種活動,如上所示。
聯合活動是用來將三個查詢「統一」成一個單一轉變。 因此,重複資料刪除不適用於個別查詢,但適用於整個查詢。 如需此主題的詳細資訊,請參閱最佳做法。
-
開啟重複資料刪除活動,然後按一下 Edit configuration… 連結以定義重複資料刪除模式。
-
在新視窗中,選取 Database schema。
-
選取 收件者 作為定位和篩選維度。
-
選取 Email 重複專案的ID欄位,只將傳遞傳送給每個電子郵件地址一次,然後按一下 Next。
如果您希望複製ID以特定欄位為基礎,請選取 Other 以存取可用欄位清單。
-
選擇時,在識別多個收件者的相同電子郵件地址時,只保留一個專案。
-
選取 Choose for me 重複資料刪除模式,以便隨機選擇在已識別重複專案情況下儲存的記錄,然後按一下 Finish。
執行工作流程時,會從結果(以及傳遞)中排除所有識別為重複的收件者,並將其新增至重複專案清單。 此清單可再次使用,而不需要重新識別重複專案。
將欄位合併到單一資料記錄中 merging-fields-into-single-record
Merge 功能可讓您設定重複資料刪除的一組規則,以定義要合併成單一結果資料記錄的欄位或欄位群組。
例如,如果有一組重複記錄,您可以選擇保留最舊的電話號碼或最新的名稱。
在此區段中提供了運用此功能的使用案例。
要執行此操作,請依照下列步驟執行:
-
在 Deduplication method 選取步驟中,按一下 Advanced Parameters 連結。
-
選取 Merge records 選項以啟動功能。
若要在每個合併條件中將多個資料欄位分組,請啟動 Use several record merging criteria 選項。
-
啟動功能後,Merge 索引標籤會新增至 Deduplication 活動。 它可讓您定義要合併的欄位群組及其相關規則。
如需詳細資訊,請參閱本節中提供的專用使用案例。
輸入引數 input-parameters
- tableName
- 結構描述
每個傳入事件都必須指定由這些引數定義的目標。
輸出引數 output-parameters
- tableName
- 結構描述
- recCount
這組三個值可識別重複資料刪除所產生的目標。 tableName 是儲存目標識別碼的資料表名稱,schema 是母體的結構描述(通常是nms:recipient),而 recCount 是資料表中的元素數目。
與補充關聯的轉變有相同的引數。