記錄處理參數

連結至Log Processing.cfg檔案中特定參數的其他資訊。

資料篩選器

Log Processing.cfg檔案中定義的篩選器包括:

  • 結束時間
  • 雜湊臨界值
  • 開始時間

由這些參數定義的過濾在日誌條目離開解碼器之後和轉換之後,但在Log Entry Condition評估之前。 一般而言,變更任何這些參數都會導致資料集的組成變更。

建議使用Sensor資料來源來建立涵蓋特定時段的資料集,方法是對資料集使用「開始時間」和「結束時間」參數。

與其他技術(如移動日誌檔案以按目錄分隔它們)相比,使用「開始時間」和「結束時間」參數是首選方法。 透過設定資料集的開始和結束時間,Data Workbench伺服器會自動僅使用在指定間隔內發生的記錄項目。 假設「結束時間」是過去的,Data Workbench伺服器通常會使用相同的記錄項目集來更新資料集,即使資料集的更新方式有,例如新增轉換。

記錄項目

本質上,這是對可用日誌條目的篩選過程。 如果Log Entry Condition傳回false值,則將從可用的日誌條目集中篩選日誌條目。

Log Entry Condition是通過使用條件操作(請參閱條件)來描述的,並且可以使用由Sensor收集的任何輸入欄位(請參閱​Data WorkbenchSensor指南)或由Log Processing.cfg檔案中包含的轉換產生的任何擴展欄位來定義測試條件。 Log Entry 條件會在記錄處理期間套用,並可在轉換期間選擇性地套用。

此範例示範如何使用log entry condition來處理網站資料。 您可以使用Log Entry Condition建立資料集,集中在網站的特定部分,或在網站上執行某些特定動作的訪客。

此示例中的Log Entry Condition建立的資料集僅包含那些屬於站點儲存的日誌條目。 使用RECondition test及相符模式"/store/.*“和cs-uri-stem欄位作為規則運算式的輸入,資料集中只會包含以字串”/store/"開頭的網頁。

鍵拆分

資料集中的追蹤ID數量會以人為方式增加,但Data Workbench伺服器處理的記錄項目總數不會以人為方式增加,因此可保留資料集中可數事件的總數。 分割單一元素的資料後,資料會永遠與兩個不同的追蹤ID相關聯,且無法相關。

例如,若您使用的是網路資料,每個追蹤ID代表一個不重複訪客。 如果您啟用金鑰分割,資料集中含有大量事件資料的訪客會分割為多個訪客。 雖然資料集中的訪客數量是人為增加的,但可數事件(例如頁面檢視或預訂)的總數並非人為增加。 發生分割後,子訪客的資料便無法關聯。

密鑰拆分使用概率算法。 因此,記憶體使用量、失敗機率、金鑰分割臨界值(Split Key Bytes)和資料集大小之間會取捨。 若使用建議的設定(如下所列),則失敗率很低。 在事件資料超過關鍵拆分臨界值的元素中,大約22,000分之1(通常每個資料集少於1)的某些資料會遭到截斷,而非拆分。

下表顯示每個參數的建議值(不含和包含索引鍵拆分)。

參數 無鍵拆分 密鑰拆分
組最大密鑰位元組數 1e6 2e6
拆分鍵桶空間 6e6 6e6
拆分鍵位元組 0 1e6
拆分鍵空間比 10 10

Group Maximum Key Bytes 指定可針對單一追蹤ID處理的事件資料量上限。超過此限制的資料會從資料集建構程式中篩選。 Split Key Bytes 代表將單一追蹤ID分割為多個元素的位元組數。元素會根據概率分佈以大約此數位元組來分割。 Split Key Space Ratio 控制 Split Key Bucket Space 密鑰拆分的儲存器利用率和故障率。

注意

Group Maximum Key Bytes、 、 Split Key Bytes、 Split Key Space Ratio和全部 Split Key Bucket Space 必須宣告,金鑰分割才能正常運作。若沒有諮詢Adobe,請勿變更這些參數的值。

本頁內容