データフィードの内容 – 概要
次の節では、データフィード配信にあるファイルにアクセスして理解する方法について説明します。
データフィードのコンテンツへのアクセス
データフィードのコンテンツにアクセスするには:
-
データフィードの宛先サイトにログインします。
これは、Amazon S3 やGoogle Cloud Platform バケットなどのデータフィードを作成する際に設定する宛先サイトです。
-
圧縮データフィードファイルをローカルマシンにダウンロードします。
-
.tar.gz
ファイル拡張子をサポートするプログラムを使用して、圧縮ファイルを解凍します。 -
hit_data.tsv
ファイルを任意のスプレッドシートまたはデータベースアプリケーションで開いて、その日の生データを表示します。—>
マニフェストファイル feed-manifest
マニフェストファイルには、アップロードされるデータセット内の各ファイルに関する以下の詳細情報が含まれます。
- ファイル名
- ファイルサイズ
- MD5 ハッシュ
- ファイルに含まれるレコードの数
マニフェストファイルは、Java JAR マニフェストファイルと同じ書式に従います。
マニフェストファイルは、別個の .txt
ファイルとして常に最後に配布されるので、このファイルの存在は、対象リクエスト期間のデータセット全体が配信済みであることを示します。マニフェストファイルには以下の書式の名前が付けられます。
[rsid]_[YYYY-mm-dd].txt
一般的なマニフェストファイルには以下のようなデータが含まれています。
Datafeed-Manifest-Version: 1.0
Lookup-Files: 1
Data-Files: 1
Total-Records: 611
Lookup-File: rsid_date-lookup_data.tar.gz
MD5-Digest: af6de42d8b945d4ec1cf28360085308
File-Size: 63750
Data-File: 01-rsid_date.tsv.gz
MD5-Digest: 9c70bf783cb3d0095a4836904b72c991
File-Size: 122534
Record-Count: 611
すべてのマニフェストファイルに、参照ファイルの合計数、データファイルの合計数、全データファイル内のレコードの合計数を示すヘッダーが含まれています。このヘッダーの後に、データフィード配信に含まれる各ファイルの情報が記述された複数のセクションが続きます。
.fin
ファイルのマニフェストの代わりに .txt
ファイルを受信するようにフィードが設定されている場合もあります。.fin
は、アップロードが完了したが、アップロードに含まれるメタデータが古い形式であることを示しています。
参照ファイル
一部のデータフィード列は、実際の値に対応する数値を出力します。ルックアップファイルは、データフィード列の数値を照合し、実際の値と照合するために使用されます。例えば、browser
ヒットデータ列の値が「497」の場合は、browser.tsv
を見ると、そのヒットが「Microsoft Internet Explorer 8」からのヒットであることがわかります。
column_headers.tsv
と event_list.tsv
はそのデータフィードとレポートスイートに固有のファイルです。それ以外のファイル(browser.tsv
など)は汎用ファイルです。
参照ファイルは次の書式の名前を持つ 1 つのファイルに圧縮されて配信されます。
[rsid]_[YYYY-mm-dd]-lookup_data.[compression_suffix]
column_headers.tsv
:hit_data.tsv
の列ヘッダーを含む 1 行。browser.tsv
:ブラウザー ID (browser
フィード列)をブラウザーのわかりやすい名前にマッピングします。browser_type.tsv
:ブラウザー ID (browser
フィード列)をブラウザータイプにマッピングします。color_depth.tsv
:色深度 ID (color
フィード列)を色深度にマッピングします。connection_type.tsv
:接続タイプ ID (connection_type
フィード列)を接続タイプにマッピングします。country.tsv
:国 ID (country
フィード列)を国名にマッピングします。javascript_version.tsv
:JavaScriptのバージョン ID (javascript
フィード列)をJavaScriptのバージョンにマッピングします。languages.tsv
:言語 ID (language
フィード列)を言語にマッピングします。operating_systems.tsv
: オペレーティングシステム ID (os
フィード列)をオペレーティングシステム名にマッピングします。plugins.tsv
:プラグイン ID (plugin
フィード列)をそれぞれのプラグイン名にマップします。resolution.tsv
:解像度 ID (resolution
フィード列)をモニターの解像度にマップします。referrer_type.tsv
: リファラータイプ ID (ref_type
フィード列)をリファラータイプにマッピングします。search_engines.tsv
:検索エンジン ID (search_engine
フィード列)を検索エンジン名にマッピングします。event.tsv
:各イベント ID (event_list
フィード列)をそれぞれのイベント名にマッピングします。
ヒットデータファイル
ヒットデータは hit_data.tsv
ファイルで提供されます。このファイルに含まれるデータの分量は、配信形式(時間別または日別、および単一ファイルまたは複数ファイル)によって異なります。このファイルにはヒットデータのみが含まれます。列ヘッダーは、参照ファイルと一緒に別途配信されます。このファイル内の各行には 1 個のサーバーコールが含まれます。
アドビから配信されるファイルは、設定したデータフィードの種類によって異なります。すべてのファイルは ISO-8859-1 を使用してエンコードされます。
[rsid]
は、データフィードの元となるレポートスイート ID を指します。[index]
は、複数のファイルフィードでのみ使用され、ページ分割されたファイルの正しい順序を示します。[YYYY-mm-dd]
は、データフィードの開始日を示します。[HHMMSS]
は時間別フィードでのみ使用され、データフィードの開始時間を示します。[compression_suffix]
は、使用される圧縮のタイプを指します。通常、データフィードはtar.gz
またはzip
ファイルに圧縮されます。[format_suffix]
はファイル形式のタイプを指します。 通常、データフィードファイル形式は.tsv
です。
日別、単一ファイル
1 日分のデータを収集した後、圧縮データファイルが 1 つ以上とマニフェストファイル 1 つを受け取ります。データファイルの名前は次のようになります。
[rsid]_[YYYY-mm-dd].[compression_suffix]
展開すると、各データファイルにはその日のすべてのデータを含む hit_data.tsv
が 1 つと、必要な列のルックアップファイルが含まれています。
毎日、複数のファイル
1 日分のデータを収集した後、圧縮データファイル 1 つ以上とマニフェストファイル 1 つを受け取ります。データファイルの名前は次のようになります。
[index]-[rsid]_[YYYY-mm-dd].[compression_suffix]
展開すると、各データファイルには約 2GB の非圧縮データを含む [index]-[rsid]_[YYYY-mm-dd].[format_suffix]
が 1 つと、必要な列のルックアップファイルが含まれています。
時間別、単一ファイル
1 時間分のデータを収集した後、圧縮データファイルが 1 つ以上とマニフェストファイル 1 つが届きます。データファイルの名前は次のようになります。
[rsid]_[YYYYmmdd]-[HHMMSS].[compression_suffix]
展開すると、各データファイルにはその時間のすべてのデータを含む hit_data.tsv
が 1 つと、必要な列のルックアップファイルが含まれています。
時間別、複数のファイル
1 時間分のデータを収集した後、圧縮データファイル 1 つ以上とマニフェストファイル 1 つを受け取ります。データファイルの名前は次のとおりです。
[index]-[rsid]_[YYYYmmdd]-[HHMMSS].[format_suffix].[compression_suffix]
抽出された場合、各データファイルには、約 2 GB の非圧縮データと、必要な列のルックアップファイルが含まれる 1 つの [index]-[rsid]_[YYYYmmdd]-[HHMMSS].[format_suffix]
ファイルが含まれます。
データファイルサイズ
ヒットデータのファイルサイズは、レポートスイートでアクティブに使用される変数の数、およびレポートスイートに送信されたトラフィック量に応じて大きく異なります。ただし、データ 1 行の平均は約 500B(圧縮時)または 2KB(非圧縮時)です。これにサーバーコールの数をかけることによって、データフィードファイルのおおよその大きさを概算できます。組織がデータフィードファイルの受信を開始すると、hit_data.tsv
の行数を合計ファイルサイズで割ることで、より正確な数を算出できます。