データフィードの内容 – 概要

次の節では、データフィード配信にあるファイルにアクセスして理解する方法について説明します。

データフィードのコンテンツへのアクセス

データフィードのコンテンツにアクセスするには:

  1. データフィードの宛先サイトにログインします。

    これは、Amazon S3 やGoogle Cloud Platform バケットなどのデータフィードを作成する際に設定する宛先サイトです。

  2. 圧縮データフィードファイルをローカルマシンにダウンロードします。

  3. .tar.gz ファイル拡張子をサポートするプログラムを使用して、圧縮ファイルを解凍します。

  4. を開きます hit_data.tsv その日の生データを表示するには、スプレッドシートまたはデータベースアプリケーションで選択したファイルを使用します。—>

マニフェストファイル feed-manifest

マニフェストファイルには、アップロードされるデータセット内の各ファイルに関する以下の詳細情報が含まれます。

  • ファイル名
  • ファイルサイズ
  • MD5 ハッシュ
  • ファイルに含まれるレコードの数

マニフェストファイルは、Java JAR マニフェストファイルと同じ書式に従います。

マニフェストファイルは、別個の .txt ファイルとして常に最後に配布されるので、このファイルの存在は、対象リクエスト期間のデータセット全体が配信済みであることを示します。マニフェストファイルには以下の書式の名前が付けられます。

[rsid]_[YYYY-mm-dd].txt

一般的なマニフェストファイルには以下のようなデータが含まれています。

Datafeed-Manifest-Version: 1.0
 Lookup-Files: 1
 Data-Files: 1
 Total-Records: 611

 Lookup-File: rsid_date-lookup_data.tar.gz
 MD5-Digest: af6de42d8b945d4ec1cf28360085308
 File-Size: 63750

 Data-File: 01-rsid_date.tsv.gz
 MD5-Digest: 9c70bf783cb3d0095a4836904b72c991
 File-Size: 122534
 Record-Count: 611

すべてのマニフェストファイルに、参照ファイルの合計数、データファイルの合計数、全データファイル内のレコードの合計数を示すヘッダーが含まれています。このヘッダーの後に、データフィード配信に含まれる各ファイルの情報が記述された複数のセクションが続きます。

.fin ファイルのマニフェストの代わりに .txt ファイルを受信するようにフィードが設定されている場合もあります。この .fin は、アップロードが完了したが、その中に含まれるメタデータが古い形式であることを示します。

参照ファイル

一部のデータフィード列は、実際の値に対応する数値を出力します。ルックアップファイルは、データフィード列の数値を照合し、実際の値と照合するために使用されます。例えば、browser ヒットデータ列の値が「497」の場合は、browser.tsv を見ると、そのヒットが「Microsoft Internet Explorer 8」からのヒットであることがわかります。

column_headers.tsvevent_list.tsv はそのデータフィードとレポートスイートに固有のファイルです。それ以外のファイル(browser.tsv など)は汎用ファイルです。

参照ファイルは次の書式の名前を持つ 1 つのファイルに圧縮されて配信されます。

[rsid]_[YYYY-mm-dd]-lookup_data.[compression_suffix]
  • column_headers.tsv:の列ヘッダーを含む 1 行 hit_data.tsv.
  • browser.tsv:ブラウザー ID ( browser フィード列)を使用して、ブラウザーのわかりやすい名前を指定します。
  • browser_type.tsv:ブラウザー ID ( browser フィード列)を使用して、ブラウザーのタイプを定義します。
  • color_depth.tsv:色深度 ID ( color フィード列)を色深度に設定します。
  • connection_type.tsv:接続タイプ ID ( connection_type フィード列)を使用して、接続タイプを指定します。
  • country.tsv:国 ID ( country フィード列)を国名に変換します。
  • javascript_version.tsv:JavaScript バージョン ID ( javascript フィード列)を使用して、JavaScript バージョンに変換します。
  • languages.tsv:言語 ID ( language フィード列)を言語に変換します。
  • operating_systems.tsv:オペレーティングシステム ID ( os フィード列)を使用して、オペレーティングシステム名を指定します。
  • plugins.tsv:プラグイン ID ( plugin フィード列)を使用して、それぞれのプラグイン名を指定します。
  • resolution.tsv:解決 ID ( resolution フィード列)を使用して、モニターの解像度を変更できます。
  • referrer_type.tsv:リファラータイプ ID ( ref_type フィード列)をリファラータイプに割り当てます。
  • search_engines.tsv:検索エンジン ID ( search_engine フィード列)を検索エンジン名に追加します。
  • event.tsv:各イベント ID ( event_list フィード列)をイベント名に変換します。

ヒットデータファイル

ヒットデータは hit_data.tsv ファイルで提供されます。このファイルに含まれるデータの分量は、配信形式(時間別または日別、および単一ファイルまたは複数ファイル)によって異なります。このファイルにはヒットデータのみが含まれます。列ヘッダーは、参照ファイルと一緒に別途配信されます。このファイル内の各行には 1 個のサーバーコールが含まれます。

アドビから配信されるファイルは、設定したデータフィードの種類によって異なります。すべてのファイルは ISO-8859-1 を使用してエンコードされます。

  • [rsid] は、データフィードの元となるレポートスイート ID を指します。
  • [index] は、複数のファイルフィードでのみ使用され、ページ分割されたファイルの正しい順序を示します。
  • [YYYY-mm-dd] は、データフィードの開始日を示します。
  • [HHMMSS] は時間別フィードでのみ使用され、データフィードの開始時間を示します。
  • [compression_suffix] は、使用される圧縮のタイプを指します。通常、データフィードは tar.gz または zip ファイルに圧縮されます。
  • [format_suffix] は、ファイル形式のタイプを参照します。 通常、データフィードファイルの形式はです .tsv.

日別、単一ファイル

1 日分のデータを収集した後、圧縮データファイルが 1 つ以上とマニフェストファイル 1 つを受け取ります。データファイルの名前は次のようになります。

[rsid]_[YYYY-mm-dd].[compression_suffix]

展開すると、各データファイルにはその日のすべてのデータを含む hit_data.tsv が 1 つと、必要な列のルックアップファイルが含まれています。

毎日、複数のファイル

1 日分のデータを収集した後、圧縮データファイル 1 つ以上とマニフェストファイル 1 つを受け取ります。データファイルの名前は次のようになります。

[index]-[rsid]_[YYYY-mm-dd].[compression_suffix]

展開すると、各データファイルには約 2GB の非圧縮データを含む [index]-[rsid]_[YYYY-mm-dd].[format_suffix] が 1 つと、必要な列のルックアップファイルが含まれています。

時間別、単一ファイル

1 時間分のデータを収集した後、圧縮データファイルが 1 つ以上とマニフェストファイル 1 つが届きます。データファイルの名前は次のようになります。

[rsid]_[YYYYmmdd]-[HHMMSS].[compression_suffix]

展開すると、各データファイルにはその時間のすべてのデータを含む hit_data.tsv が 1 つと、必要な列のルックアップファイルが含まれています。

時間別、複数のファイル

1 時間分のデータを収集した後、圧縮データファイル 1 つ以上とマニフェストファイル 1 つを受け取ります。データファイルの名前は次のとおりです。

[index]-[rsid]_[YYYYmmdd]-[HHMMSS].[format_suffix].[compression_suffix]

抽出された場合、各データファイルには、1 つのが含まれます [index]-[rsid]_[YYYYmmdd]-[HHMMSS].[format_suffix] 約 2 GB の非圧縮データと、必要な列のルックアップファイルを含むファイル。

データファイルサイズ

ヒットデータのファイルサイズは、レポートスイートでアクティブに使用される変数の数、およびレポートスイートに送信されたトラフィック量に応じて大きく異なります。ただし、データ 1 行の平均は約 500B(圧縮時)または 2KB(非圧縮時)です。これにサーバーコールの数をかけることによって、データフィードファイルのおおよその大きさを概算できます。組織がデータフィードファイルの受信を開始すると、hit_data.tsv の行数を合計ファイルサイズで割ることで、より正確な数を算出できます。

recommendation-more-help
6b7d49d5-f5fe-4b7f-91ae-5b0745755ed2