ログソースは、データセット構築用の元データを含むファイルです。
各データレコードが 1 件のトランザクションレコードまたは 1 回のイベントの発生を表していることから、ログソース内のデータは「イベントデータ」と呼ばれます。Data Workbenchサーバーは、Sensorsが収集したデータや他のデータソースから抽出したデータから得られたログソースを処理できます。
Sensorsが収集したデータ: SensorsがHTTPサーバーやアプリケーションサーバーから収集したデータはData Workbenchサーバーに送信され、そこで、高圧縮されたログ( .vsl)ファイルに変換されます。 センサーファイルを参照してください。
Insight サーバーによって抽出されたデータ: Data Workbench サーバーは、フラットファイルや XML ファイル、ODBC 準拠のデータベースからイベントデータを読み取り、デコーダーを使用して、データから目的のエレメントを抽出します。そうしたイベントデータは、メモリに常駐している必要はありませんが、イベントデータを含んでいるレコードには追跡 ID が格納されている必要があります。詳しくは、 ログファイル、 XMLログソース、 ODBCデータソース。
ログソースを追加するには
data workbenchでLog Processing.cfgを開きます。
Log Sourcesを右クリックし、Add Newをクリックします。
次のいずれかを選択します。
データセットの定義で実際に使用するパラメーターは、データセットの設定プロセスで使用するログソースのタイプによって異なります。ログソースごとの節で紹介しているパラメーターを指定してください。
Log Processing.cfg ファイルでログソースを定義し、他のパラメーターに必要な変更を加えたら、そのファイルをローカルに保存してから、Data Workbench サーバー上のデータセットプロファイルに保存します。
Data WorkbenchサーバーFile Server Unitは、Sensorファイル、ログファイル、XMLファイルを受け取って保存し、データセットを構築するData WorkbenchサーバーのData Processing Unitsに提供できます。 「Insightサーバーファイルサーバーユニットの設定」を参照してください。
Transformation Dependency Mapから任意のログソースの設定を開くことができます。 Transformation Dependency Mapについて詳しくは、データセット設定ツールを参照してください。
SensorsによってHTTPサーバーやアプリケーションサーバーから収集されたイベントデータはData Workbenchサーバーに送信され、そこで、高圧縮されたログ(.vsl)ファイルに変換されます。 .vslファイル形式はData Workbenchサーバーによって管理され、各ファイルには次の形式の名前が付けられます。
YYYYMMDD-SENSORID.VSL
YYYYMMDD はファイルの日付で、SENSORID は、データを収集して Data Workbench サーバーに送信した Sensor の名前(カンパニー内で割り当てられる名前)です。
Sensor のファイルには、以下のパラメーターを使用できます。
パラメーター | 説明 |
---|---|
Log Paths | .vsl ファイルが格納されるディレクトリ。デフォルトでは Logs ディレクトリです。Data Workbench サーバーのインストールディレクトリが相対パスの基準となります。 処理対象とする .vsl ファイルは、ワイルドカード文字で指定できます。
例えば、Logs\*.vsl というパスは、Logs ディレクトリ内の、.vsl で終わるすべてのファイルと一致します。Logs\*-SENSOR?.vsl というパスは、任意の日付(YYYYMMDD)を持ち、SENSOR の後に 1 文字続く(SENSOR1 など)、Logs ディレクトリ内のファイルと一致します。 指定したパスのすべてのサブディレクトリを検索対象にしたい場合は、Recursive パラメーターを true に設定する必要があります。
注意:Data Workbench サーバーのファイルサーバーユニットからファイルを読み取る場合、適切な URI を Log Paths パラメーターに入力する必要があります。例えば、/Logs/*-*.vsl という URI は、Logs ディレクトリ内のすべての .vsl ファイルと一致します。「 Insightサーバーファイルサーバーユニットの設定」を参照してください。 |
Log Server | ファイルサーバーへの接続に必要な情報(アドレス、名前、ポートなど)。Log Server パラメーターに値が入力されている場合、Log Paths は URI として解釈されます。それ以外の場合は、ローカルパスとして解釈されます。詳しくは、 Insightサーバーのファイルサーバーユニットの設定を参照してください。 |
Log Source ID | このパラメーターには、任意の文字列を値として指定できます。このパラメーターの値が指定されていると、異なるログソースからのログエントリを区別して、ログの生成元を特定したり、処理の対象を絞り込んだりすることができます。x-log-source-id フィールドには、ログソースを識別する値がログエントリごとに格納されます。例えば、VSensor01 という Sensor からのログエントリを識別したい場合、「from VSensor01」と入力すれば、このソースから収集されるすべてのログエントリの x-log-source-id フィールドにその文字列が渡されます。 x-log-source-idフィールドについて詳しくは、イベントデータレコードフィールドを参照してください。 |
Recursive | true または false。true に設定した場合、Log Paths に指定された各パスのすべてのサブディレクトリを対象に、指定したファイル名やワイルドカードパターンと一致するファイルが検索されます。デフォルト値は false です。 |
Use Start/End Times | true または false。このパラメーターを true に設定し、Start Time または End Time を指定する場合、ログソースのすべてのファイルの名前は、ISO 形式の日付(YYYYMMDD)で始まっている必要があります。すべてのファイルに、GMT に基づく 1 日分(特定の日付の 0000 GMT から翌日の 0000 GMT までなど)のデータが含まれていることが前提となります。GMT の 1 日に対応しないデータがログソースファイルに含まれている場合、結果が不正確になるので、それを避けるために、このパラメーターを false に設定する必要があります。
注意:Sensor によって収集されたデータの .vsl ファイルは、特に何もしなくても、名前付けと時間範囲に関する前述の要件を自動的に満たします。このパラメーターが true に設定されている場合、Data Workbench サーバーは常に、指定された Start Time と End Time の期間に該当する ISO 形式の日付を名前に含んだファイルからのデータを処理します。このパラメーターが false に設定されている場合、Data Workbench サーバーは、ログ処理の過程ですべての .vsl ファイルを読み取り、Start Time から End Time までの期間に該当するデータが含まれているファイルを特定します。 TimeパラメーターとEnd Time開始ーについて詳しくは、データフィルターーを参照してください。 |
Sensorデータソースの設定パラメーターを使用して、ログファイル内のどのログエントリをデータセットに含めるかを決めないでください。 その場合は、特定のディレクトリ内のすべてのログファイルを指すようにデータソースを設定したうえで、Log Processing.cfg の Start Time パラメーターと End Time パラメーターを使用し、データセットの構築に使用するログエントリを選択します。「データフィルター」を参照してください。
イベントデータを含むファイルは、次の要件を満たしている必要があります。
ファイル内のイベントデータレコードは、1 件につき 1 行で記述されている必要があります。
レコード内のフィールドは、データが存在するかどうかに関係なく、ASCII の区切り文字で区切られている必要があります。Data Workbench サーバーの要件として定められた区切り文字はありません。行終端文字以外で、かつイベントデータ自体に出現していない文字であれば、どのような文字でも使用できます。
ファイル内の各レコードには次のデータが含まれている必要があります。
データ処理の始まりと終わりの時間を指定するために、各ファイル名は次の形式になっている必要があります。
YYYYMMDD はファイル内の全データのグリニッジ標準時(GMT)の日付で、SOURCE はファイルに含まれているデータの取得元を表す変数です。
データセットへの組み込みを予定しているログファイルの確認については、Adobeコンサルティングサービスにお問い合わせください。
ログファイルのログソースに関して、以下の表に示したパラメーターが用意されています。
ログファイルログソースを処理するには、Log Processing Dataset Includeファイルに定義された追加のパラメーターが必要です。このパラメーターには、Log Processing.cfgファイルに含まれるパラメーターのサブセットと、ログファイルからデータを抽出するデコーダーを定義する特殊なパラメーターが含まれます。 ログファイルログソースに使用するデコーダーの定義について詳しくは、テキストファイルデコーダーグループを参照してください。
パラメーター | 説明 |
---|---|
名前 | ログファイルソースを識別する情報。 |
Log Paths | ログファイルを格納するディレクトリ。デフォルトでは Logs ディレクトリです。Data Workbench サーバーのインストールディレクトリが相対パスの基準となります。 処理対象とするログファイルは、ワイルドカード文字で指定できます。
例えば、Logs\*.log というパスは、Logs ディレクトリ内の、.log で終わるすべてのファイルと一致します。 指定したパスのすべてのサブディレクトリを検索対象にしたい場合は、Recursive パラメーターを true に設定する必要があります。 Data Workbench サーバーのファイルサーバーユニットからファイルを読み取る場合、適切な URI を Log Paths パラメーターに入力する必要があります。例えば、URI/Logs/*.log は、Logs ディレクトリ内のすべての .log ファイルと一致します。「 Insightサーバーファイルサーバーユニットの設定」を参照してください。 |
ログサーバー | ファイルサーバーへの接続に必要な情報(アドレス、名前、ポートなど)。Log Server パラメーターに値が入力されている場合、Log Paths は URI として解釈されます。それ以外の場合は、ローカルパスとして解釈されます。詳しくは、 Insightサーバーのファイルサーバーユニットの設定を参照してください。 |
Compressed | true または false。Data Workbench サーバーによって読み取られるログファイルが圧縮 gzip ファイルである場合、この値を true に設定する必要があります。 |
Decoder Group | ログファイルログソースに適用するテキストファイルデコーダーグループの名前。この名前は、ログ処理データセットインクルードファイルに指定された、対応するテキストファイルデコーダーグループの名前と完全に一致している必要があります。 Text File Decoder Groupsを参照してください。 |
ログソースID | このパラメーターには、任意の文字列を値として指定できます。このパラメーターの値が指定されていると、異なるログソースからのログエントリを区別して、ログの生成元を特定したり、処理の対象を絞り込んだりすることができます。x-log-source-id フィールドには、ログソースを識別する値がログエントリごとに格納されます。例えば、LogFile01 というログファイルソースからのログエントリを識別したい場合、「from LogFile01」と入力すれば、このソースから収集されるすべてのログエントリの x-log-source-id フィールドにその文字列が渡されます。 x-log-source-idフィールドについて詳しくは、イベントデータレコードフィールドを参照してください。 |
Mask Pattern | 規則的な名前のログファイルを指定するための正規表現パターン。一連のログファイルのソースを識別する目的で使用されます。考慮されるのはファイル名のみです。パスと拡張子は、正規表現のマッチングの対象外となります。マスクパターンを指定しなかった場合は、マスクが自動的に生成されます。 Logs\010105server1.log や Logs\010105server2.log というファイルの場合、マスクパターンは 詳しくは、 正規表現. |
Recursive | true または false。このパラメーターを true に設定した場合、Log Paths に指定された各パスのすべてのサブディレクトリを対象に、指定したファイル名やワイルドカードパターンと一致するファイルが検索されます。デフォルト値は false です。 |
Reject File | デコーダーの条件を満たさないログエントリを含むファイルのパスと名前。 |
開始/終了時間の使用 | true または false。このパラメーターを true に設定し、Start Time または End Time を指定する場合、ログソースのすべてのファイルの名前は、ISO 形式の日付(YYYYMMDD)で始まっている必要があります。すべてのファイルに、GMT に基づく 1 日分(特定の日付の 0000 GMT から翌日の 0000 GMT までなど)のデータが含まれていることが前提となります。ログソースファイル名の先頭が ISO 形式の日付になっていない場合や、GMT の 1 日に対応しないデータがファイルに含まれている場合、結果が不正確になるので、それを避けるために、このパラメーターを false に設定する必要があります。
注意:前述の命名規則と時間範囲の要件をログファイルが満たしている場合、このパラメーターを true に設定することによって、指定したテキストファイルデコーダーグループによって読み取り対象のファイルが限定され、ISO 形式の日付をファイル名に含んでいて、Start Time と End Time で指定した期間に該当するファイルだけが読み取り対象となります。このパラメーターが false に設定されている場合、Data Workbench サーバーは、ログ処理の過程ですべてのログファイルを読み取り、Start Time から End Time までの期間に該当するデータが含まれているファイルを特定します。 Start Time パラメーターと End Time パラメーターについて詳しくは、データフィルターを参照してください。 |
次の例では、2 種類のログソースからデータセットが構築されます。
Log Source 0 には、Sensor によって収集されたイベントデータから生成されたログファイルが指定されています。このデータソースは、Logsという名前のディレクトリと、そのディレクトリ内にある.vslファイル名拡張子の付いたすべてのファイルを指しています。
Log Source 1は、Logsディレクトリ内の.txtファイル名拡張子の付いたすべてのファイルを指します。 このログソースのデコーダーグループには、「Text Logs」という名前が付けられています。
データセットのデータソースを定義した後でログファイルを削除したり移動したりすることは避けてください。データソースのディレクトリには、新しく作成されたログファイルだけを追加する必要があります。
イベントデータを含むファイルは、次の要件を満たしている必要があります。
イベントデータは、必要な親子関係を持った適切な形式の XML ファイルに格納されていなければなりません。
XML ファイル形式ごとに一意のデコーダーグループが存在している必要があります。デコーダーグループの作成について詳しくは、 XML デコーダーグループ.
ファイル内の訪問者レコードにはそれぞれ次のデータが含まれている必要があります。
データ処理の始まりと終わりの時間を指定するために、各ファイル名は次の形式になっている必要があります。
YYYYMMDD-SOURCE.log
YYYYMMDD はファイル内の全データのグリニッジ標準時(GMT)の日付で、SOURCE はファイルに含まれているデータの取得元を表す変数です。
これらの要件を満たした XML ファイルの例については、 XML デコーダーグループ.
データセットへの組み込みを予定しているXMLログファイルの確認については、Adobeコンサルティングサービスにお問い合わせください。
XML ログソースに関して、以下の表に示したパラメーターが用意されています。
XMLログソースの処理には、Log Processing Dataset Includeファイルに定義された追加のパラメーターが必要です。このパラメーターには、Log Processing.cfgファイルに含まれているパラメーターのサブセットと、XMLファイルからデータを抽出するデコーダーを定義する特殊なパラメーターが含まれます。 XMLログソース用のデコーダーの定義について詳しくは、XMLデコーダーグループを参照してください。
フィールド | 説明 |
---|---|
名前 | XML ログソースを識別する情報。 |
Log Paths | XML ログソースが格納されるディレクトリ。デフォルトでは Logs ディレクトリです。Data Workbench サーバーのインストールディレクトリが相対パスの基準となります。 処理対象とする XML ログソースは、ワイルドカード文字で指定できます。
例えば、Logs\*.xml というパスは、Logs ディレクトリ内の、.xml で終わるすべてのファイルと一致します。 指定したパスのすべてのサブディレクトリを検索対象にしたい場合は、Recursive フィールドを true に設定する必要があります。
注意:Data Workbench サーバーのファイルサーバーユニットからファイルを読み取る場合、適切な URI を Log Paths フィールドに入力する必要があります。例えば、URI/Logs/*.xml は、Logs ディレクトリ内のすべての .xml ファイルと一致します。「 Insightサーバーファイルサーバーユニットの設定」を参照してください。 |
ログサーバー | ファイルサーバーへの接続に必要な情報(アドレス、名前、ポートなど)。Log Server フィールドに値が入力されている場合、Log Paths は URI として解釈されます。それ以外の場合は、ローカルパスとして解釈されます。詳しくは、 Insightサーバーのファイルサーバーユニットの設定を参照してください。 |
圧縮 | true または false。Data Workbench サーバーによって読み取られる XML ログソースが圧縮 gzip ファイルである場合、この値を true に設定する必要があります。 |
Decoder Group | XML ログソースに適用する XML デコーダーグループの名前。この名前は、ログ処理データセットインクルードファイルに指定された、対応する XML デコーダーグループの名前と完全に一致している必要があります。「 XMLデコーダーグループ」を参照してください。 |
ログソースID | このフィールドには、任意の文字列を値として指定できます。このフィールドの値が指定されていると、異なるログソースからのログエントリを区別して、ログの生成元を特定したり、処理の対象を絞り込んだりすることができます。x-log-source-id フィールドには、ログソースを識別する値がログエントリごとに格納されます。例えば、XMLFile01 というログファイルソースからのログエントリを識別したい場合、「from XMLFile01」と入力すれば、このソースから収集されるすべてのログエントリの x-log-source-id フィールドにその文字列が渡されます。 x-log-source-idフィールドについて詳しくは、イベントデータレコードフィールドを参照してください。 |
マスクパターン | 規則的な名前のログファイルを指定するための正規表現パターン。一連のログファイルのソースを識別する目的で使用されます。考慮されるのはファイル名のみです。パスと拡張子は、正規表現のマッチングの対象外となります。マスクパターンを指定しなかった場合は、マスクが自動的に生成されます。 Logs\010105server1.xml や Logs\010105server2.xml というファイルの場合、マスクパターンは 詳しくは、 正規表現. |
Recursive | true または false。このパラメーターを true に設定した場合、Log Paths に指定された各パスのすべてのサブディレクトリを対象に、指定したファイル名やワイルドカードパターンと一致するファイルが検索されます。デフォルト値は false です。 |
ファイルを拒否 | デコーダーの条件を満たさないログエントリを含むファイルのパスと名前。 |
開始/終了時間の使用 | true または false。このパラメーターを true に設定し、Start Time または End Time を指定する場合、ログソースのすべてのファイルの名前は、ISO 形式の日付(YYYYMMDD)で始まっている必要があります。すべてのファイルに、GMT に基づく 1 日分(特定の日付の 0000 GMT から翌日の 0000 GMT までなど)のデータが含まれていることが前提となります。ログソースファイル名の先頭が ISO 形式の日付になっていない場合や、GMT の 1 日に対応しないデータがファイルに含まれている場合、結果が不正確になるので、それを避けるために、このパラメーターを false に設定する必要があります。
注意:前述の命名規則と時間範囲の要件を XML ファイルが満たしている場合、このパラメーターを true に設定することによって、指定した XML デコーダーグループによって読み取り対象のファイルが限定され、ISO 形式の日付をファイル名に含んでいて、Start Time と End Time で指定した期間に該当するファイルだけが読み取り対象となります。このパラメーターが false に設定されている場合、Data Workbench サーバーは、ログ処理の過程ですべての XML ファイルを読み取り、Start Time から End Time までの期間に該当するデータが含まれているファイルを特定します。 Start Time パラメーターと End Time パラメーターについて詳しくは、データフィルターを参照してください。 |
データセットのデータソースを定義した後でXMLログソースを削除または移動することは避けてください。 データソースのディレクトリには、新しく作成された XML ファイルだけを追加する必要があります。
Avro データフィードは、より効率的な方法でデータを Data Workbench に統合します。
Avro は、トラフィックおよびコマースデータ用の単一ソース形式を提供します。
Avro フィードは、1 日ごとに提供される複数のソースチャンクの圧縮データです。入力されたフィールドのみをプロビジョニングしたり、監視および通知機能を提供したり、履歴データにアクセスしたり、自動リカバリしたりします。
スキーマ(AVRO ログファイルの自動定義レイアウト)は、各ファイルの最初に含まれます。
デコーダーへの変更なしに Data Workbench データを取り込むための情報をサポートする新しいフィールドが追加されます。これには、以下が含まれます。
また、Avroフィードを使用すると、シャットダウンを行わずにフィード内の新しいフィールドに即座にアクセスできるので、サービス時間の要件を満たさずにフィールドを更新できます。
Avro データフィードは、個別のファイルに設定されます。
このウィザードは、Avro デコーダーログファイルを設定します。
開くには、ワークスペースで右クリックして、管理者/ウィザード/AVRO デコーダーウィザードを選択します。
手順 1:AVRO ログファイルを選択します。
この手順では、Avro スキーマのソースファイルを選択できます。スキーマは、ログファイル(.log)または既存のデコーダーファイル(.avro)からアクセスできます。スキーマは、どちらかのファイルから取り込むことができます。
Avroログファイル | クリックして(.log)ファイルを開くと、ログファイルの最上部にスキーマが表示され、デコーダーファイルを生成します。 |
---|---|
AVRO デコーダーファイル | クリックして開き、既存のデコーダー(.avro)ファイルのスキーマを編集します。 |
手順 2:入力フィールドを選択します。
ログ処理を経るために、データセットで使用する入力フィールドを選択します。ファイルのすべてのフィールドが表示され、フィード用のフィールドを選択できます。
データ内で配列が検出された場合は、x-product(Generates row)フィールドが指定されます。 このフィールドは、配列にネストされたデータ用に新しい行を入力フィールドとして生成します。例えば、配列に多くの製品の値を持つヒット行がある場合、各製品の入力ファイルに行が生成されます。
デフォルトを選択 | デフォルトフィールドの標準として識別するためのフィールドを選択します。 |
---|---|
すべて選択 | ファイルのすべてのフィールドを選択します。 |
すべて選択解除 | ファイルのすべてのフィールドをクリアします。 |
手順3:行を生成するためにコピーされるフィールドを選択します。
新しい行は配列のネストされた値から作成できるので、それぞれの作成された新しい行には、追跡 ID およびタイムスタンプがある必要があります。この手順により、追跡 ID およびタイムスタンプなどの親レコードから行にコピーされるフィールドを選択できます。また、各行に追加したい他の値も選択できます。
デフォルトを選択 | 追跡 ID およびタイムスタンプなど、各行に追加された新しい列の値に必要なデフォルトフィールドの標準セットを選択します。例えば、hit_source フィールドは、それぞれの新しい行に追加されるために必要なデフォルト値です(リストのデフォルト値として定義されます)。必要に応じて、他の列の値を各行に追加できます。 |
---|---|
すべて選択 | ファイルのすべてのフィールドを選択します。 |
すべて選択解除 | ファイルのすべてのフィールドをクリアします。 |
検索ボックスを使用して、リストの値を検索します。
手順 4:デコーダー名を指定します。
フィールドのグループに名前を割り当てて、デコーダーファイルとして保存します。名前は、ログソースで指定したデコーダーグループ名と一致する必要があります。
手順 5:デコーダーファイルを保存します。
ファイルメニューが開き、デコーダーファイルに名前を付けてLogsフォルダーに.cfgファイルとして保存されます。