深入了解Data Workbench 終止公告.
記錄來源是包含要用來建立資料集之資料的檔案。
記錄來源中可用的資料稱為事件資料,因為每個資料記錄代表交易記錄或事件的單一例項。 Data Workbench伺服器可處理衍生自所收集資料的記錄來源 Sensors 或從其他資料來源擷取。
收集資料者 Sensors:收集的資料 Sensors 從HTTP和應用程式伺服器傳送至Data Workbench伺服器,這些伺服器會將資料轉換為高度壓縮的記錄檔( .vsl)檔案。 請參閱 感測器檔案.
Insight Server擷取的資料: Data Workbench伺服器會讀取一般檔案、XML檔案或符合ODBC的資料庫中包含的事件資料,並使用其解碼器來擷取所需資料的元素。 此類事件資料不必駐留在記憶體中,但包含資料的記錄必須包含追蹤ID。 請參閱 記錄檔, XML日誌源,和 ODBC資料源.
添加日誌源
開啟 Log Processing.cfg 在data workbench中。
按一下右鍵 Log Sources,然後按一下 Add New.
選取下列其中一項:
定義資料集的特定參數會因資料集設定程式中使用的記錄來源類型而異。 指定與相應日誌源對應的部分中所示的參數:
在您定義了記錄來源(並對其他參數進行變更)後, Log Processing.cfg 檔案,將檔案儲存在本機,然後儲存至data workbench伺服器上的資料集設定檔。
Data Workbench伺服器 File Server Unit 可接收和儲存 Sensor 檔案、記錄檔和XML檔案,並將它們提供至Data Workbench伺服器 Data Processing Units 來建構資料集。 請參閱 設定Insight Server檔案伺服器單元.
您可以從 Transformation Dependency Map. 如需有關 Transformation Dependency Map,請參閱 資料集組態設定工具.
收集的事件資料 Sensors 從HTTP和應用程式伺服器傳送至Data Workbench伺服器,這些伺服器會將資料轉換為高度壓縮的記錄檔( .vsl)檔案。 此 .vsl 檔案格式由data workbench伺服器管理,且每個檔案的名稱皆為:
YYYYMMDD-SENSORID.VSL
其中YYYYMMDD是檔案的日期,而 SENSORID 是名稱(由貴組織指派),可指出 Sensor 收集資料並傳送至data workbench伺服器。
針對 Sensor 檔案中,可使用下列參數:
參數 | 說明 |
---|---|
記錄路徑 | 目錄 .vsl 檔案會儲存。 預設位置為Logs目錄。 相對路徑是指Data Workbench伺服器的安裝目錄。 您可以使用萬用字元來指定 .vsl 要處理的檔案:
例如,日誌路徑 記錄檔\*.vsl 匹配Logs目錄中結尾為 .vsl. 日誌路徑 日誌\*-SENSOR?.vsl 與Logs目錄中的檔案匹配,其中包含任何日期(YYYYMMDD),並且SENSOR(感測器1)後面有一個字元。 如果要搜索指定路徑的所有子目錄,必須將Recursive參數設定為true。
注意:如果要從Data Workbench伺服器的 檔案伺服器單元,則必須在「日誌路徑」參數中輸入相應的URI。 例如, URI /Logs/*-*.vsl 相符 .vsl 檔案。 請參閱 設定Insight Server檔案伺服器單元. |
日誌伺服器 | 連接到檔案伺服器所需的資訊(地址、名稱、埠等)。 如果日誌伺服器參數中有條目,則 記錄路徑 被解釋為URI。 否則,這些路徑會被解譯為本機路徑。 請參閱 設定Insight Server檔案伺服器單元. |
日誌源ID | 此參數的值可以是任何字串。 如果指定了值,此參數可讓您區分不同日誌源中的日誌條目,以用於源標識或目標處理。 x-log-source-id欄位中會填入一個值,用於識別每個記錄項目的記錄來源。 例如,如果您要識別 感測器 命名為VSensor01,您可以鍵入 從VSensor01,而該字串將傳遞至該來源每個記錄項目的x-log-source-id欄位。 如需x-log-source-id欄位的相關資訊,請參閱 事件資料記錄欄位. |
遞歸 | True或False。 若設為true,則中指定之每個路徑的所有子目錄 記錄路徑 搜索與指定檔案名或通配符模式匹配的檔案。 預設值為 false。 |
使用開始/結束時間 | True或False。 如果設定為true且指定了「開始時間」或「結束時間」,則此日誌源的所有檔案都必須具有以ISO格式(YYYYMMDD)的日期開始的檔案名。 假設每個檔案包含一GMT日的資料(例如,從一天0000 GMT開始,到次日0000 GMT結束的時間範圍)。 如果記錄來源檔案包含的資料不對應至GMT日,則必須將此參數設為false,以避免產生錯誤的結果。
注意:依預設, .vsl 包含收集資料的檔案 感測器 自動符合上述的命名和時間範圍需求。 如果將此參數設為true,Data Workbench伺服器一律會處理檔案中的資料,其名稱包含介於指定開始時間和結束時間之間的ISO日期。 如果將此參數設為false,Data Workbench伺服器會讀取 .vsl 記錄處理期間的檔案,以判斷哪些檔案包含「開始時間」和「結束時間」範圍內的資料。 如需「開始時間」和「結束時間」參數的相關資訊,請參閱 資料篩選. |
請勿將設定參數用於 Sensor 資料來源,以決定應將記錄檔中的記錄項目納入資料集中。 請改為設定資料源,以指向目錄中的所有日誌檔案。 然後使用 Log Processing.cfg 以決定建構資料集時應使用的記錄項目。 請參閱 資料篩選.
包含事件資料的檔案必須符合下列要求:
檔案中的每個事件資料記錄都必須以一行表示。
記錄中的欄位必須以ASCII分隔字元分隔,無論是否空白。 Data Workbench伺服器不要求您使用特定分隔字元。 您可以使用非行尾字元且事件資料本身內未出現的任何字元。
檔案中的每個記錄都必須包含:
若要指定資料處理的開始和結束時間,每個檔案名稱必須為下列格式:
where YYYYMMDD 是檔案中所有資料的格林威治標準時間(GMT)天,而 來源 是識別檔案中所含資料來源的變數。
請連絡Adobe諮詢服務,以檢閱您打算併入資料集的記錄檔。
對於日誌檔案日誌源,下表中的參數可用。
處理日誌檔案日誌源需要在 Log Processing Dataset Include 檔案,其中包含 Log Processing.cfg 檔案,以及用於定義解碼器以從記錄檔擷取資料的特殊參數。 有關定義日誌檔案日誌源的解碼器的資訊,請參見 文字檔案解碼器群組.
參數 | 說明 |
---|---|
名稱 | 日誌檔案源的標識符。 |
記錄路徑 | 儲存日誌檔案的目錄。 預設位置為Logs目錄。 相對路徑是指Data Workbench伺服器的安裝目錄。 您可以使用萬用字元來指定要處理的記錄檔:
例如,日誌路徑 Logs\*.log 匹配Logs目錄中結尾為 .log. 如果要搜索指定路徑的所有子目錄,則必須將Recursive參數設定為true。 如果要從Data Workbench伺服器的 檔案伺服器單元,則必須在「日誌路徑」參數中輸入相應的URI。 例如, URI/Logs/*.log 相符 .log 檔案。 請參閱 設定Insight Server檔案伺服器單元. |
日誌伺服器 | 連接到檔案伺服器所需的資訊(地址、名稱、埠等)。 如果日誌伺服器參數中有條目,則 記錄路徑 被解釋為URI。 否則,這些路徑會被解譯為本機路徑。 請參閱 設定Insight Server檔案伺服器單元. |
壓縮 | True或False。 如果Data Workbench伺服器要讀取的記錄檔是壓縮的gzip檔案,則此值應設為true。 |
解碼器群組 | 要套用至記錄檔記錄來源的文字檔案解碼器群組的名稱。 此名稱必須與 記錄處理資料集包含 檔案。 請參閱 文字檔案解碼器群組. |
日誌源ID | 此參數的值可以是任何字串。 如果指定了值,此參數可讓您區分不同日誌源中的日誌條目,以用於源標識或目標處理。 x-log-source-id欄位中會填入一個值,用於識別每個記錄項目的記錄來源。 例如,如果要從名為LogFile01的日誌檔案源中標識日誌條目,可以鍵入 從LogFile01,而該字串將傳遞至該來源每個記錄項目的x-log-source-id欄位。 如需x-log-source-id欄位的相關資訊,請參閱 事件資料記錄欄位. |
遮色片圖樣 | 具有單個捕獲子模式的規則表達式,它提取用於標識一系列日誌檔案源的一致名稱。 僅考慮檔案名。 規則運算式比對不會考慮路徑和擴充功能。 若您未指定 遮罩圖案,則會自動產生遮罩。 對於檔案 Logs\010105server1.log 和 Logs\010105server2.log, 遮罩圖案 會 請參閱 規則運算式. |
遞歸 | True或False。 如果此參數設為true,則中指定之每個路徑的所有子目錄 記錄路徑 搜索與指定檔案名或通配符模式匹配的檔案。 預設值為 false。 |
拒絕檔案 | 包含不符合解碼器條件之記錄項目之檔案的路徑與檔案名稱。 |
使用開始/結束時間 | True或False。 如果此參數設定為true,並且指定了「開始時間」或「結束時間」,則此日誌源的所有檔案都必須具有以ISO格式(YYYYMMDD)的日期開始的檔案名。 假設每個檔案包含一GMT日的資料(例如,從一天0000 GMT開始,到次日0000 GMT結束的時間範圍)。 如果日誌源檔案名不以ISO日期開頭,或如果檔案包含的資料與GMT日期不對應,則必須將此參數設為false以避免結果不正確。
注意:如果上述對日誌檔案的命名和時間範圍要求滿足,並且您將此參數設定為true,則指定的文本檔案解碼器組將讀取的檔案限制為那些名稱具有ISO日期且落在指定的開始時間和結束時間之間的檔案。 如果將此參數設為false,Data Workbench伺服器會在記錄處理期間讀取所有記錄檔,以判斷哪些檔案包含「開始時間」和「結束時間」範圍內的資料。 如需「開始時間」和「結束時間」參數的相關資訊,請參閱 資料篩選. |
在此範例中,資料集是從兩種記錄來源建構。
日誌源0指定從捕獲的事件資料生成的日誌檔案 Sensor. 此資料源指向名為「日誌」的目錄,並指向該目錄中包含 .vsl 檔案名副檔名。
Log Source 1指向Logs目錄中的所有檔案,其中包含 .txt 檔案名副檔名。 此記錄來源的解碼器群組稱為「文字記錄」。
定義資料集的資料來源後,您不應刪除或移動記錄檔。 只應將新建立的日誌檔案添加到資料源的目錄中。
包含事件資料的檔案必須符合下列要求:
事件資料必須包含在格式正確的XML檔案中,且檔案具有適當的父子關係。
每個XML檔案格式必須有唯一的解碼器群組。 如需建構解碼器群組的相關資訊,請參閱 XML解碼器群組.
檔案中的每個訪客記錄都必須包含:
若要指定資料處理的開始和結束時間,每個檔案名稱必須為
YYYYMMDD-SOURCE.log
where YYYYMMDD 是檔案中所有資料的格林威治標準時間(GMT)天,而 來源 是識別檔案中所含資料來源的變數。
有關滿足這些要求的XML檔案的示例,請參見 XML解碼器群組.
請連絡Adobe諮詢服務,以檢閱您打算併入資料集的XML記錄檔。
對於XML日誌源,下表中的參數可用。
處理XML日誌源需要在 Log Processing Dataset Include 檔案,其中包含 Log Processing.cfg 檔案以及用於定義解碼器以從XML檔案擷取資料的特殊參數。 有關定義XML日誌源的解碼器的資訊,請參見 XML解碼器群組.
欄位 | 說明 |
---|---|
名稱 | XML日誌源的標識符。 |
記錄路徑 | 儲存XML日誌源的目錄。 預設位置為Logs目錄。 相對路徑是指Data Workbench伺服器的安裝目錄。 您可以使用通配符指定要處理的XML日誌源:
例如,日誌路徑 日誌\*.xml 匹配Logs目錄中結尾為 .xml. 如果要搜索指定路徑的所有子目錄,必須設定 遞歸 欄位設為true。
注意:如果要從Data Workbench伺服器的 檔案伺服器單元,您必須在 記錄路徑 欄位。 例如, URI/Logs/*.xml 相符 .xml 檔案。 請參閱 設定Insight Server檔案伺服器單元. |
日誌伺服器 | 連接到檔案伺服器所需的資訊(地址、名稱、埠等)。 如果 日誌伺服器 欄位, 記錄路徑 被解釋為URI。 否則,這些路徑會被解譯為本機路徑。 請參閱 設定Insight Server檔案伺服器單元. |
壓縮 | True或False。 如果資料工作台伺服器要讀取的XML記錄來源是壓縮的gzip檔案,則此值應設為true。 |
解碼器群組 | 要套用至XML記錄檔來源的XML解碼器群組名稱。 此名稱必須與 記錄處理資料集包含 檔案。 請參閱 XML解碼器群組. |
日誌源ID | 此欄位的值可以是任何字串。 如果指定了值,則此欄位允許您區分不同日誌源中的日誌條目,以用於源標識或目標處理。 x-log-source-id欄位中會填入一個值,用於識別每個記錄項目的記錄來源。 例如,如果要標識名為XMLFile01的日誌檔案源中的日誌條目,可以鍵入 從XMLFile01,而該字串將傳遞至該來源每個記錄項目的x-log-source-id欄位。 如需x-log-source-id欄位的相關資訊,請參閱 事件資料記錄欄位. |
遮色片圖樣 | 具有單個捕獲子模式的規則表達式,它提取用於標識一系列日誌檔案源的一致名稱。 僅考慮檔案名。 規則運算式比對不會考慮路徑和擴充功能。 若您未指定 遮罩圖案,則會自動產生遮罩。 對於檔案 日誌\010105server1.xml 和 日誌\010105server2.xml,蒙版圖案會是 請參閱 規則運算式. |
遞歸 | True或False。 如果此參數設為true,則中指定之每個路徑的所有子目錄 記錄路徑 搜索與指定檔案名或通配符模式匹配的檔案。 預設值為 false。 |
拒絕檔案 | 包含不符合解碼器條件之記錄項目之檔案的路徑與檔案名稱。 |
使用開始/結束時間 | True或False。 如果此參數設定為true,並且指定了「開始時間」或「結束時間」,則此日誌源的所有檔案都必須具有以ISO格式(YYYYMMDD)的日期開始的檔案名。 假設每個檔案包含一GMT日的資料(例如,從一天0000 GMT開始,到次日0000 GMT結束的時間範圍)。 如果日誌源檔案名不以ISO日期開頭,或如果檔案包含的資料與GMT日期不對應,則必須將此參數設為false以避免結果不正確。
注意:如果上述XML檔案的命名和時間範圍要求已滿足,並且您將此參數設定為true,則指定的XML解碼器組將讀取的檔案限制為那些名稱具有ISO日期且介於指定的開始時間和結束時間之間的檔案。 如果將此參數設為false,Data Workbench伺服器會在記錄處理期間讀取所有XML檔案,以判斷哪些檔案包含「開始時間」和「結束時間」範圍內的資料。 如需「開始時間」和「結束時間」參數的相關資訊,請參閱 資料篩選. |
定義資料集的資料來源後,您不應刪除或移動XML記錄來源。 只應將新建立的XML檔案添加到資料源的目錄中。
Avro資料摘要提供更有效率的方式,將資料整合至Data Workbench:
Avro為流量和商務資料提供單一來源格式。
Avro摘要是每天提供多個來源區塊的壓縮資料。 它僅配置填入的欄位,並提供監控和通知功能、歷史資料的訪問以及自動恢復。
架構(自定義的Avro日誌檔案佈局)包含在每個檔案的開頭。
新增欄位並附有支援資訊,以內嵌Data Workbench資料,而不需要對解碼器進行任何變更。 這些類別包括:
此外,使用Avro摘要可立即存取摘要中的任何新欄位,而不需關閉,因此可更新欄位,不需服務小時要求。
Avro資料饋送設定在個別檔案中:
此精靈會設定Avro解碼器記錄檔。
若要開啟,請在工作區中按一下滑鼠右鍵並選取 管理 > 嚮導 > Avro解碼器精靈.
步驟1: 選擇Avro日誌檔案.
在此步驟中,可以為Avro架構選擇源檔案。 可從記錄檔(.log)或現有的解碼器檔案(.avro)存取結構描述。 可從任一檔案提取結構描述。
Avro日誌檔案 | 按一下以開啟記錄檔(.log)檔案,以檢視記錄檔頂端的架構並產生解碼器檔案。 |
---|---|
Avro解碼器檔案 | 按一下以開啟及編輯現有解碼器(.avro)檔案的結構。 |
步驟2:選擇輸入欄位.
選取要在資料集中使用的輸入欄位,以通過記錄處理。 檔案中的所有欄位都會顯示,供您選取摘要的欄位。
A x-product(Generates row) 如果資料中遇到陣列,則會提供欄位。 此欄位會為陣列中的巢狀資料產生新列,作為輸入欄位。 例如,如果陣列中有一個「點擊」列包含許多「產品」值,則會在輸入檔案中為每個產品產生列。
選擇預設值 | 選取要識別為標準預設欄位集的欄位。 |
---|---|
選擇全部 | 選取檔案中的所有欄位。 |
取消選擇全部 | 清除檔案中的所有欄位。 |
步驟3:選取要複製以產生列的欄位。
因為新列可從陣列中的巢狀值建立,所以每個新建立的列都必須有追蹤ID和時間戳記。 此步驟可讓您選取要從父記錄複製到列的欄位,例如追蹤ID和時間戳記。 您也可以選取其他要新增至每一列的值。
選擇預設值 | 選取一組標準預設欄位,這些欄位需要新增新的欄值至每一列,例如追蹤ID和時間戳記。 例如, hit_source 欄位是新增至每個新列所需的預設值(在清單中定義為預設值)。 您可以視需要將其他欄值新增至每一列。 |
---|---|
選擇全部 | 選取檔案中的所有欄位。 |
取消選擇全部 | 清除檔案中的所有欄位。 |
使用 搜尋 框中,可查找清單中的值。
步驟4:指定解碼器名稱
指派欄位群組的名稱並儲存為解碼器檔案。 名稱應符合記錄來源中指定的解碼器群組名稱。
步驟5:儲存解碼器檔案。
檔案功能表會開啟,為解碼器檔案命名並儲存為 .cfg 檔案 記錄檔 檔案夾。