重複資料刪除會從入站活動的結果中刪除重複專案。 可在電子郵件地址、電話號碼或其他欄位上執行重複資料刪除。
此 Deduplication activity用於從資料集中移除重複列。 例如,下列記錄可能被視為重複,因為它們有相同的電子郵件地址和相同的行動和/或住家電話。
上次修改日期 | 名字 | 姓氏 | 電子郵件 | 行動電話 | 電話 |
---|---|---|---|---|---|
02/03/2020 | Bob | Tisner | bob@mycompany.com | 444-444-4444 | 888-888-8888 |
05/19/2020 | Robert | Tisner | bob@mycompany.com | 444-444-4444 | 777-777-7777 |
07/22/2020 | Bobby | Tisner | bob@mycompany.com | 444-444-4444 | 777-777-7777 |
此 Deduplication 活動可在識別重複專案後,保留整列作為唯一記錄。 例如,在上述使用案例中,如果活動設定為僅保留具有最舊記錄的記錄 Date,結果會是:
日期 | 名字 | 姓氏 | 電子郵件 | 行動電話 | 電話 |
---|---|---|---|---|---|
02/03/2020 | Bob | Tisner | bob@mycompany.com | 444-444-4444 | 888-888-8888 |
選取的主要記錄將結轉資料,不會將欄位資料與重複列中的其他相關資料進行任何合併。
補充:
日期 | 名字 | 姓氏 | 電子郵件 | 行動電話 | 電話 |
---|---|---|---|---|---|
05/19/2020 | Robert | Tisner | bob@mycompany.com | 444-444-4444 | 777-777-7777 |
07/22/2020 | Bobby | Tisner | bob@mycompany.com | 444-444-4444 | 777-777-7777 |
在重複資料刪除期間,會個別處理傳入資料流。 例如,如果在查詢1的結果中以及在查詢2的結果中找到收件者A,則不會進行重複資料刪除。
此問題需要透過以下方式解決:
若要設定重複資料刪除,請輸入其標籤、方法和重複資料刪除條件,以及有關結果的選項。
按一下 Edit configuration… 定義重複資料刪除模式的連結。
選取此活動的目標型別(依預設,重複資料刪除會連結至收件者)以及要使用的條件,也就是可讓您識別重複專案的相同值欄位。
如果您使用外部資料作為輸入(例如來自外部檔案),請務必選取 Temporary schema 選項。
在下一步中, Other 選項可讓您選取要使用的條件:
在下一步中, Other 選項可讓您選取在值相同的情況下要使用的條件。
從下拉式清單中,選取要使用的重複資料刪除方法,然後輸入要保留的重複專案數量。
可使用下列方法:
Choose for me:隨機選取要保留在重複項目外的記錄。
Following a list of values:可讓您定義一或多個欄位的值優先順序。若要定義值,請選取欄位或建立運算式,然後將值新增至適當的資料表中。若要定義新欄位,請按一下值清單上方的 Add 按鈕。
Non-empty value:您可以保留所選運算式的值不為空白的記錄作為優先順序。
Using an expression:可讓您使用指定運算式的最低(或最高)值來保留記錄。
此 Merge 功能,可透過 Advanced parameters 連結,可讓您設定一組規則,以將欄位或欄位群組合併為單一結果資料記錄。 如需詳細資訊,請參閱 將欄位合併為單一記錄.
按一下 Finish 以核准選取的重複資料刪除方法。
視窗的中間區段會摘要列出定義的組態。
在活動編輯器視窗的下半部,您可以修改圖形物件的出站轉變標籤,並輸入與活動結果相關聯的區段代碼。 此程式碼稍後可當作目標定位准則使用。
檢查 Generate complement 選項(如果要利用剩餘母體)。 補充包含所有重複專案。 隨後會將其他轉變新增至活動,如下所示:
在以下範例中,重複資料刪除與三個查詢的聯集有關。
工作流程的目的是透過排除重複專案來定義傳遞的目標,以避免將其多次傳送給相同的收件者。
已識別的重複專案也將整合到專用的重複專案清單中,必要時可重複使用。
新增並連結工作流程運作所需的各種活動,如上所示。
此處的聯合活動用於將三個查詢「統一」成一個單一轉變。 因此,重複資料刪除不適用於個別查詢,但適用於整個查詢。 有關本主題的詳細資訊,請參閱 最佳實務.
開啟重複資料刪除活動,然後按一下 Edit configuration… 定義重複資料刪除模式的連結。
在新視窗中,選取 Database schema.
選取 收件者 做為定位和篩選維度。
選取的ID欄位 Email 重複,只將傳遞傳送給每個電子郵件地址一次,然後按一下 Next.
如果您希望複製ID以特定欄位為基礎,請選取 Other 以存取可用欄位清單。
選擇此項可在多個收件者識別相同電子郵件地址時,只保留一個專案。
選取 Choose for me 重複資料刪除模式,以便隨機選擇在已識別重複專案的情況下儲存的記錄,然後按一下 Finish.
執行工作流程時,所有識別為重複專案的收件者都會從結果(以及傳遞)中排除,並新增至重複專案清單中。 此清單可再次使用,而不需要重新識別重複專案。
此 Merge 功能可讓您設定一組重複資料刪除規則,以定義要合併成單一結果資料記錄的欄位或欄位群組。
例如,如果有一組重複記錄,您可以選擇保留最舊的電話號碼或最新的名稱。
以下提供運用此功能的使用案例: 本節.
要執行此操作,請依照下列步驟執行:
在 Deduplication method 選取步驟,按一下 Advanced Parameters 連結。
選取 Merge records 啟用功能的選項。
如果您想要在每個合併條件中將多個資料欄位分組,請啟動 Use several record merging criteria 選項。
啟動功能後, Merge 索引標籤已新增至 Deduplication 活動。 它可讓您定義要合併的欄位群組及其相關規則。
如需詳細資訊,請參閱以下提供的專用使用案例: 本節.
每個傳入事件都必須指定由這些引數定義的目標。
這組三個值會識別重複資料刪除所產生的目標。 tableName 是儲存目標識別碼的表格名稱, schema 為母體的結構描述(通常為nms:recipient)和 recCount 是表格中的元素數量。
與補碼關聯的轉變具有相同的引數。