記錄來源是包含要用來建立資料集之資料的檔案。
記錄來源中可用的資料稱為事件資料,因為每個資料記錄代表交易記錄或事件的單一例項。 Data Workbench伺服器可處理衍生自Sensors所收集資料或從其他資料來源擷取的記錄來源。
Sensors收集的資料: Sensors從HTTP和應用程式伺服器收集的資料會傳送至Data Workbench伺服器,這些伺服器會將資料轉換為高度壓縮的記錄檔(.vsl)檔案。 請參閱感測器檔案。
由Insight Server擷取的資料: Data Workbench伺服器會讀取一般檔案、XML檔案或符合ODBC的資料庫中包含的事件資料,並使用其解碼器來擷取所需資料的元素。此類事件資料不必駐留在記憶體中,但包含資料的記錄必須包含追蹤ID。 請參閱日誌檔案、XML日誌源和ODBC資料源。
添加日誌源
在Data Workbench中開啟Log Processing.cfg。
按一下右鍵Log Sources,然後按一下Add New。
選取下列其中一項:
定義資料集的特定參數會因資料集設定程式中使用的記錄來源類型而異。 指定與相應日誌源對應的部分中所示的參數:
在Log Processing.cfg檔案中定義記錄來源(並變更其他參數)後,請將檔案儲存在本機,然後儲存至Data Workbench伺服器上的資料集設定檔。
Data Workbench伺服器File Server Unit可接收並儲存Sensor檔案、記錄檔和XML檔案,並將它們提供給Data Workbench伺服器的Data Processing Units來建構資料集。 請參閱設定Insight Server檔案伺服器單元。
您可以從Transformation Dependency Map開啟任何日誌源的配置。 如需Transformation Dependency Map的相關資訊,請參閱資料集組態工具。
Sensors從HTTP和應用程式伺服器收集的事件資料會傳送至Data Workbench伺服器,由此將資料轉換為高度壓縮的記錄檔(.vsl)檔案。 .vsl檔案格式由Data Workbench伺服器管理,且每個檔案的名稱為:
YYYYMMDD-SENSORID.VSL
其中YYYYMMDD是檔案的日期,而SENSORID是名稱(由貴組織指派),指出收集資料並傳送至Data Workbench伺服器的Sensor。
對於Sensor檔案,可使用下列參數:
參數 | 說明 |
---|---|
記錄路徑 | 儲存 .vsl檔案的目錄。 預設位置為Logs目錄。 相對路徑是指Data Workbench伺服器的安裝目錄。 您可以使用萬用字元來指定要處理的 .vsl檔案:
例如,日誌路徑 Logs\*.vsl與日誌目錄中以 .vsl結尾的任何檔案匹配。 日誌路徑 Logs\*-SENSOR?.vsl與Logs目錄中的檔案匹配,其中包含任何日期(YYYYMMDD),並且SENSOR1後面有一個字元,如SENSOR1中。 如果要搜索指定路徑的所有子目錄,必須將Recursive參數設定為true。
注意:如果要從Data Workbench伺服器的檔案伺服器單元讀取檔案,則必須在「日誌路徑」參數中輸入適當的URI。 例如, URI /Logs/*-*.vsl與Logs目錄中的任何 .vsl檔案匹配。 請參閱設定Insight Server檔案伺服器單元。 |
日誌伺服器 | 連接到檔案伺服器所需的資訊(地址、名稱、埠等)。 如果日誌伺服器參數中有條目,則日誌路徑將被解釋為URI。 否則,這些路徑會被解譯為本機路徑。 請參閱設定Insight Server檔案伺服器單元。 |
日誌源ID | 此參數的值可以是任何字串。 如果指定了值,此參數可讓您區分不同日誌源中的日誌條目,以用於源標識或目標處理。 x-log-source-id欄位中會填入一個值,用於識別每個記錄項目的記錄來源。 例如,如果要識別感測器中名為VSensor01的日誌條目,則可以從VSensor01鍵入,該字串將傳遞到該源中每個日誌條目的x-log-source-id欄位。 有關x-log-source-id欄位的資訊,請參閱事件資料記錄欄位。 |
遞歸 | True 或 False. 如果設定為true,則在日誌路徑中指定的每個路徑的所有子目錄中搜索與指定檔案名或通配符模式匹配的檔案。 預設值為 false。 |
使用開始/結束時間 | True 或 False. 如果設定為true且指定了「開始時間」或「結束時間」,則此日誌源的所有檔案都必須具有以ISO格式(YYYYMMDD)的日期開始的檔案名。 假設每個檔案包含一GMT日的資料(例如,從一天0000 GMT開始,到次日0000 GMT結束的時間範圍)。 如果記錄來源檔案包含的資料不對應至GMT日,則必須將此參數設為false,以避免產生錯誤的結果。
注意:預設情況下, .vsl 包含感測器所收集資料的檔案自動滿足上述命名和時間範圍要求。 如果將此參數設為true,Data Workbench伺服器一律會處理檔案中的資料,其名稱包含介於指定開始時間和結束時間之間的ISO日期。 如果將此參數設為false,Data Workbench伺服器會在記錄處理期間讀取所有 .vsl檔案,以判斷哪些檔案包含「開始時間」和「結束時間」範圍內的資料。 有關「開始時間」和「結束時間」參數的資訊,請參閱資料篩選器。 |
請勿使用Sensor資料來源的設定參數來判斷應將記錄檔中的哪些記錄項目納入資料集中。 請改為設定資料源,以指向目錄中的所有日誌檔案。 然後使用Log Processing.cfg的「開始時間」和「結束時間」參數,判斷建構資料集時應使用哪些記錄項目。 請參閱資料篩選器。
包含事件資料的檔案必須符合下列要求:
檔案中的每個事件資料記錄都必須以一行表示。
記錄中的欄位必須以ASCII分隔字元分隔,無論是否空白。 Data Workbench伺服器不要求您使用特定分隔字元。 您可以使用非行尾字元且事件資料本身內未出現的任何字元。
檔案中的每個記錄都必須包含:
若要指定資料處理的開始和結束時間,每個檔案名稱必須為下列格式:
其中YYYYMMDD是檔案中所有資料的格林威治平均時間(GMT)日,而SOURCE是識別檔案中所含資料來源的變數。
請連絡Adobe諮詢服務,以檢閱您打算併入資料集的記錄檔。
對於日誌檔案日誌源,下表中的參數可用。
處理日誌檔案日誌源需要在Log Processing Dataset Include檔案中定義的其他參數,該檔案包含Log Processing.cfg檔案中包含的參數的子集,以及用於定義用於從日誌檔案中提取資料的解碼器的特殊參數。 如需定義記錄檔記錄來源之解碼器的相關資訊,請參閱文字檔案解碼器群組。
參數 | 說明 |
---|---|
名稱 | 日誌檔案源的標識符。 |
記錄路徑 | 儲存日誌檔案的目錄。 預設位置為Logs目錄。 相對路徑是指Data Workbench伺服器的安裝目錄。 您可以使用萬用字元來指定要處理的記錄檔:
例如,日誌路徑 Logs\*.log與日誌目錄中以 .log結尾的任何檔案匹配。 如果要搜索指定路徑的所有子目錄,則必須將Recursive參數設定為true。 如果要從Data Workbench伺服器的檔案伺服器單元讀取檔案,則必須在「日誌路徑」參數中輸入適當的URI。 例如, URI/Logs/*.log與Logs目錄中的任何 .log檔案匹配。 請參閱設定Insight Server檔案伺服器單元。 |
日誌伺服器 | 連接到檔案伺服器所需的資訊(地址、名稱、埠等)。 如果日誌伺服器參數中有條目,則日誌路徑將被解釋為URI。 否則,這些路徑會被解譯為本機路徑。 請參閱設定Insight Server檔案伺服器單元。 |
壓縮 | True 或 False. 如果Data Workbench伺服器要讀取的記錄檔是壓縮的gzip檔案,則此值應設為true。 |
解碼器群組 | 要套用至記錄檔記錄來源的文字檔案解碼器群組的名稱。 此名稱必須與記錄處理資料集包含檔案中指定之對應文字檔案解碼器群組的名稱完全相符。 請參閱文字檔案解碼器群組。 |
日誌源ID | 此參數的值可以是任何字串。 如果指定了值,此參數可讓您區分不同日誌源中的日誌條目,以用於源標識或目標處理。 x-log-source-id欄位中會填入一個值,用於識別每個記錄項目的記錄來源。 例如,如果要標識名為LogFile01的日誌檔案源中的日誌條目,則可以從LogFile01鍵入,該字串將傳遞到x-log-source-id欄位,用於從該源獲取的每個日誌條目。 有關x-log-source-id欄位的資訊,請參閱事件資料記錄欄位。 |
遮色片圖樣 | 具有單個捕獲子模式的規則表達式,它提取用於標識一系列日誌檔案源的一致名稱。 僅考慮檔案名。 規則運算式比對不會考慮路徑和擴充功能。 如果未指定掩碼模式,則會自動生成掩碼。 對於檔案 Logs\010105server1.log和 Logs\010105server2.log,掩碼模式將為 請參閱規則運算式。 |
遞歸 | True 或 False. 如果此參數設為true,則在日誌路徑中指定的每個路徑的所有子目錄中搜索與指定檔案名或通配符模式匹配的檔案。 預設值為 false。 |
拒絕檔案 | 包含不符合解碼器條件之記錄項目之檔案的路徑與檔案名稱。 |
使用開始/結束時間 | True 或 False. 如果此參數設定為true,並且指定了「開始時間」或「結束時間」,則此日誌源的所有檔案都必須具有以ISO格式(YYYYMMDD)的日期開始的檔案名。 假設每個檔案包含一GMT日的資料(例如,從一天0000 GMT開始,到次日0000 GMT結束的時間範圍)。 如果日誌源檔案名不以ISO日期開頭,或如果檔案包含的資料與GMT日期不對應,則必須將此參數設為false以避免結果不正確。
注意: 如果上述對日誌檔案的命名和時間範圍要求滿足,並且您將此參數設定為true,則指定的文本檔案解碼器組將讀取的檔案限制為那些名稱具有ISO日期且落在指定的開始時間和結束時間之間的檔案。 如果將此參數設為false,Data Workbench伺服器會在記錄處理期間讀取所有記錄檔,以判斷哪些檔案包含「開始時間」和「結束時間」範圍內的資料。 有關「開始時間」和「結束時間」參數的資訊,請參閱資料篩選器。 |
在此範例中,資料集是從兩種記錄來源建構。
「日誌源0」指定從Sensor捕獲的事件資料生成的日誌檔案。 此資料源指向名為「日誌」的目錄,以及該目錄中副檔名為.vsl的所有檔案。
Log Source 1指向Logs目錄中副檔名為.txt的所有檔案。 此記錄來源的解碼器群組稱為「文字記錄」。
定義資料集的資料來源後,您不應刪除或移動記錄檔。 只應將新建立的日誌檔案添加到資料源的目錄中。
包含事件資料的檔案必須符合下列要求:
事件資料必須包含在格式正確的XML檔案中,且檔案具有適當的父子關係。
每個XML檔案格式必須有唯一的解碼器群組。 如需關於建構解碼器群組的資訊,請參閱XML解碼器群組。
檔案中的每個訪客記錄都必須包含:
若要指定資料處理的開始和結束時間,每個檔案名稱必須為
YYYYMMDD-SOURCE.log
其中YYYYMMDD是檔案中所有資料的格林威治平均時間(GMT)日,而SOURCE是識別檔案中所含資料來源的變數。
如需符合這些要求的XML檔案範例,請參閱XML解碼器群組。
請連絡Adobe諮詢服務,以檢閱您打算併入資料集的XML記錄檔。
對於XML日誌源,下表中的參數可用。
處理XML日誌源需要在Log Processing Dataset Include檔案中定義的附加參數,該檔案包含Log Processing.cfg檔案中包含的參數的子集,以及用於定義用於從XML檔案中提取資料的解碼器的特殊參數。 有關定義XML日誌源的解碼器的資訊,請參閱XML解碼器組。
欄位 | 說明 |
---|---|
名稱 | XML日誌源的標識符。 |
記錄路徑 | 儲存XML日誌源的目錄。 預設位置為Logs目錄。 相對路徑是指Data Workbench伺服器的安裝目錄。 您可以使用通配符指定要處理的XML日誌源:
例如,日誌路徑 Logs\*.xml與日誌目錄中以 .xml結尾的任何檔案匹配。 如果要搜索指定路徑的所有子目錄,必須將 Recursive欄位設定為true。
注意:如果要從Data Workbench伺服器的檔案伺服器單元讀取檔案,必須在日誌路徑欄位中輸入適當的URI。 例如, URI/Logs/*.xml與Logs目錄中的任何 .xml檔案匹配。 請參閱設定Insight Server檔案伺服器單元。 |
日誌伺服器 | 連接到檔案伺服器所需的資訊(地址、名稱、埠等)。 如果日誌伺服器欄位中有條目,則日誌路徑將被解釋為URI。 否則,這些路徑會被解譯為本機路徑。 請參閱設定Insight Server檔案伺服器單元。 |
壓縮 | True 或 False. 如果資料工作台伺服器要讀取的XML記錄來源是壓縮的gzip檔案,則此值應設為true。 |
解碼器群組 | 要套用至XML記錄檔來源的XML解碼器群組名稱。 此名稱必須與記錄處理資料集包含檔案中指定之對應XML解碼器群組的名稱完全相符。 請參閱 XML解碼器群組。 |
日誌源ID | 此欄位的值可以是任何字串。 如果指定了值,則此欄位允許您區分不同日誌源中的日誌條目,以用於源標識或目標處理。 x-log-source-id欄位中會填入一個值,用於識別每個記錄項目的記錄來源。 例如,如果要標識名為XMLFile01的日誌檔案源中的日誌條目,則可以從XMLFile01鍵入,該字串將傳遞到該源中每個日誌條目的x-log-source-id欄位。 有關x-log-source-id欄位的資訊,請參閱事件資料記錄欄位。 |
遮色片圖樣 | 具有單個捕獲子模式的規則表達式,它提取用於標識一系列日誌檔案源的一致名稱。 僅考慮檔案名。 規則運算式比對不會考慮路徑和擴充功能。 如果未指定掩碼模式,則會自動生成掩碼。 對於檔案 Logs\010105server1.xml和 Logs\010105server2.xml,掩碼模式為 請參閱規則運算式。 |
遞歸 | True 或 False. 如果此參數設為true,則在日誌路徑中指定的每個路徑的所有子目錄中搜索與指定檔案名或通配符模式匹配的檔案。 預設值為 false。 |
拒絕檔案 | 包含不符合解碼器條件之記錄項目之檔案的路徑與檔案名稱。 |
使用開始/結束時間 | True 或 False. 如果此參數設定為true,並且指定了「開始時間」或「結束時間」,則此日誌源的所有檔案都必須具有以ISO格式(YYYYMMDD)的日期開始的檔案名。 假設每個檔案包含一GMT日的資料(例如,從一天0000 GMT開始,到次日0000 GMT結束的時間範圍)。 如果日誌源檔案名不以ISO日期開頭,或如果檔案包含的資料與GMT日期不對應,則必須將此參數設為false以避免結果不正確。
注意: 如果上述XML檔案的命名和時間範圍要求已滿足,並且您將此參數設定為true,則指定的XML解碼器組將讀取的檔案限制為那些名稱具有ISO日期且介於指定的開始時間和結束時間之間的檔案。 如果將此參數設為false,Data Workbench伺服器會在記錄處理期間讀取所有XML檔案,以判斷哪些檔案包含「開始時間」和「結束時間」範圍內的資料。 有關「開始時間」和「結束時間」參數的資訊,請參閱資料篩選器。 |
定義資料集的資料來源後,您不應刪除或移動XML記錄來源。 只應將新建立的XML檔案添加到資料源的目錄中。
Avro資料摘要提供更有效率的方式,將資料整合至Data Workbench:
Avro為流量和商務資料提供單一來源格式。
Avro摘要是每天提供多個來源區塊的壓縮資料。 它僅配置填入的欄位,並提供監控和通知功能、歷史資料的訪問以及自動恢復。
架構(自定義的Avro日誌檔案佈局)包含在每個檔案的開頭。
新增欄位並附有支援資訊,以內嵌Data Workbench資料,而不需要對解碼器進行任何變更。 這些類別包括:
此外,使用Avro摘要可立即存取摘要中的任何新欄位,而不需關閉,因此可更新欄位,不需服務小時要求。
Avro資料饋送設定在個別檔案中:
此精靈會設定Avro解碼器記錄檔。
若要開啟,請在工作區中按一下滑鼠右鍵,然後選取Admin > 精靈 > Avro解碼器精靈。
步驟1: 選取Avro記錄檔。
在此步驟中,可以為Avro架構選擇源檔案。 可從記錄檔(.log)或現有的解碼器檔案(.avro)存取結構描述。 可從任一檔案提取結構描述。
Avro日誌檔案 | 按一下以開啟記錄檔(.log)檔案,以檢視記錄檔頂端的架構並產生解碼器檔案。 |
---|---|
Avro解碼器檔案 | 按一下以開啟及編輯現有解碼器(.avro)檔案的結構。 |
步驟2:選取輸入欄位。
選取要在資料集中使用的輸入欄位,以通過記錄處理。 檔案中的所有欄位都會顯示,供您選取摘要的欄位。
如果資料中遇到陣列,則提供x-product(Generates row)欄位。 此欄位會為陣列中的巢狀資料產生新列,作為輸入欄位。 例如,如果陣列中有一個「點擊」列包含許多「產品」值,則會在輸入檔案中為每個產品產生列。
選擇預設值 | 選取要識別為標準預設欄位集的欄位。 |
---|---|
選擇全部 | 選取檔案中的所有欄位。 |
取消選擇全部 | 清除檔案中的所有欄位。 |
步驟3:選取要複製以產生列的欄位。
因為新列可從陣列中的巢狀值建立,所以每個新建立的列都必須有追蹤ID和時間戳記。 此步驟可讓您選取要從父記錄複製到列的欄位,例如追蹤ID和時間戳記。 您也可以選取其他要新增至每一列的值。
選擇預設值 | 選取一組標準預設欄位,這些欄位需要新增新的欄值至每一列,例如追蹤ID和時間戳記。 例如,hit_source欄位是需要添加到每個新行的預設值(它定義為清單中的預設值)。 您可以視需要將其他欄值新增至每一列。 |
---|---|
選擇全部 | 選取檔案中的所有欄位。 |
取消選擇全部 | 清除檔案中的所有欄位。 |
使用Search框查找清單中的值。
步驟4:指定解碼器名稱
指派欄位群組的名稱並儲存為解碼器檔案。 名稱應符合記錄來源中指定的解碼器群組名稱。
步驟5:儲存解碼器檔案。
檔案功能表會開啟,為解碼器檔案命名,並儲存為Logs資料夾中的.cfg檔案。