Conteúdos do feed de dados - visão geral

As seções a seguir descrevem como acessar e entender os arquivos encontrados na entrega de um feed de dados.

Acessar conteúdo do feed de dados

Para acessar o conteúdo de um feed de dados:

  1. Faça logon no site de destino do feed de dados.

    É o site de destino que você configura ao criar o feed de dados, como um bucket do Amazon S3 ou da Google Cloud Platform.

  2. Baixe o arquivo de feed de dados compactado no computador local.

  3. Descompacte o arquivo compactado usando um programa compatível com extensões de arquivo .tar.gz.

  4. Abra o hit_data.tsv arquivo na planilha ou no aplicativo de banco de dados preferido para ver os dados brutos desse dia. —>

Arquivo manifest feed-manifest

O arquivo de manifesto contém os detalhes a seguir sobre cada arquivo que faz parte do conjunto de dados carregado:

  • Nome do arquivo
  • Tamanho do arquivo
  • hash MD5
  • Número de registros contidos no arquivo

O arquivo de manifesto segue o mesmo formato de um arquivo de manifesto Java JAR.

O arquivo de manifesto é sempre fornecido por último como um arquivo .txt separado, de modo que sua existência indique que o conjunto de dados completo para o período de solicitação já foi fornecido. Os arquivos de manifesto são nomeados de acordo com os seguintes itens:

[rsid]_[YYYY-mm-dd].txt

Um arquivo de manifesto comum contém dados como os seguintes:

Datafeed-Manifest-Version: 1.0
 Lookup-Files: 1
 Data-Files: 1
 Total-Records: 611

 Lookup-File: rsid_date-lookup_data.tar.gz
 MD5-Digest: af6de42d8b945d4ec1cf28360085308
 File-Size: 63750

 Data-File: 01-rsid_date.tsv.gz
 MD5-Digest: 9c70bf783cb3d0095a4836904b72c991
 File-Size: 122534
 Record-Count: 611

Todo arquivo de manifesto contém um cabeçalho, que indica o número total de arquivos de pesquisa, arquivos de dados e o número total de registros em todos os arquivos de dados. Esse cabeçalho é seguido por várias seções com informações de cada arquivo incluído na entrega do feed de dados.

Alguns feeds são configurados para receber um arquivo .fin em vez de um manifesto .txt. A variável .fin indica que o carregamento foi concluído, mas os metadados que ele contém estão em um formato antigo.

Arquivos de pesquisa

Algumas colunas de feed de dados produzem um número que corresponde ao seu valor real. Os arquivos de pesquisa são usados para corresponder um número de uma coluna de feed de dados e corresponder a um valor real. Por exemplo, um valor de "497" na coluna de dados de browser ocorrência indica que a ocorrência veio do "Microsoft Internet Explorer 8" se você procurar browser.tsv.

Observe que column_headers.tsv e event_list.tsv são específicos ao feed de dados e ao conjunto de relatórios. Outros arquivos, como browser.tsv, são genéricos.

Os arquivos de pesquisa são entregues em conjunto em um zip compactado, o qual é nomeado de acordo com os seguintes itens:

[rsid]_[YYYY-mm-dd]-lookup_data.[compression_suffix]
  • column_headers.tsv: uma única linha que contém os cabeçalhos de coluna para hit_data.tsv.
  • browser.tsv: mapeia a ID do navegador (a variável browser coluna de feed) para o nome amigável do navegador.
  • browser_type.tsv: mapeia a ID do navegador (a variável browser coluna de feed) para o tipo de navegador.
  • color_depth.tsv: Mapeia a ID de intensidade de cor (a variável color coluna de feed) para intensidade de cor.
  • connection_type.tsv: mapeia a ID do tipo de conexão (a variável connection_type coluna de feed) ao tipo de conexão.
  • country.tsv: mapeia a ID do país (a variável country coluna do feed) ao nome do país.
  • javascript_version.tsv: Mapeia a ID da versão do JavaScript (a variável javascript feed (coluna de feed) para a versão do JavaScript.
  • languages.tsv: mapeia a ID do idioma (a variável language coluna de feed) para o idioma.
  • operating_systems.tsv: mapeia a ID do sistema operacional (a variável os coluna feed) ao nome do sistema operacional.
  • plugins.tsv: mapeia as IDs do plug-in (a variável plugin coluna de feed) para cada nome de plug-in respectivo.
  • resolution.tsv: Mapeia a ID de resolução (a variável resolution coluna de alimentação) para a resolução do monitor.
  • referrer_type.tsv: Mapeia a ID do tipo de referenciador (a variável ref_type coluna de feed) para o tipo de referenciador.
  • search_engines.tsv: mapeia a ID do mecanismo de pesquisa (a variável search_engine coluna feed) ao nome do mecanismo de pesquisa.
  • event.tsv: Mapeia cada ID de evento (a variável event_list coluna feed) ao respectivo nome de evento.

Arquivos de dados de hit

Os dados de hit são fornecidos em um arquivo hit_data.tsv. A quantidade de dados nesse arquivo é determinada pelo formato de entrega (por hora ou por dia e, ainda, em único arquivo ou vários arquivos). Esse arquivo contém somente os dados de hit. Os cabeçalhos da coluna são entregues separadamente com os arquivos de pesquisa. Cada linha desse arquivo contém uma única chamada de servidor.

Os arquivos entregues pela Adobe variam com base no tipo de feed de dados configurados. Todos os arquivos são codificados usando o ISO-8859-1.

  • [rsid] refere-se à ID do conjunto de relatórios de onde o feed de dados é.
  • [index] é usado somente em vários feeds de arquivo e se refere à ordem correta dos arquivos paginados.
  • [YYYY-mm-dd] refere-se ao dia de início do feed de dados.
  • [HHMMSS] é usado somente em feeds por hora e refere-se à hora inicial para a qual o feed de dados é usado.
  • [compression_suffix] refere-se ao tipo de compactação usado. Normalmente, os feeds de dados são compactados em tar.gz ou zip arquivos.
  • [format_suffix] refere-se ao tipo de formato de arquivo. Normalmente, o formato do arquivo do feed de dados é .tsv.

Por dia, único arquivo

Depois que os dados forem coletados por um dia, você receberá um único arquivo de dados compactado e um arquivo manifest. O nome do arquivo de dados é:

[rsid]_[YYYY-mm-dd].[compression_suffix]

Quando extraído, o arquivo de dados contém um único hit_data.tsv arquivo com todos os dados do dia, bem como arquivos de pesquisa para quaisquer colunas necessárias.

Diariamente, vários arquivos

Depois que os dados forem coletados por um dia, você receberá um ou mais arquivos de dados compactados e um arquivo manifest. O nome do arquivo de dados é:

[index]-[rsid]_[YYYY-mm-dd].[compression_suffix]

Quando extraído, cada arquivo de dados contém um único [index]-[rsid]_[YYYY-mm-dd].[format_suffix] que contém aproximadamente 2 GB de dados descompactados, bem como arquivos de pesquisa para qualquer coluna necessária.

Por hora, único arquivo

Depois que os dados forem coletados por uma hora, você receberá um único arquivo de dados compactado e um arquivo manifest. O nome do arquivo de dados é:

[rsid]_[YYYYmmdd]-[HHMMSS].[compression_suffix]

Quando extraído, o arquivo de dados contém um único hit_data.tsv arquivo com todos os dados daquela hora, bem como arquivos de pesquisa para quaisquer colunas necessárias.

Por hora, vários arquivos

Depois que os dados forem coletados por uma hora, você receberá um ou mais arquivos de dados compactados e um arquivo manifest. Os arquivos de dados são nomeados como:

[index]-[rsid]_[YYYYmmdd]-[HHMMSS].[format_suffix].[compression_suffix]

Quando extraído, cada arquivo de dados contém um único [index]-[rsid]_[YYYYmmdd]-[HHMMSS].[format_suffix] arquivo que contém aproximadamente 2 GB de dados descompactados, bem como arquivos de pesquisa para quaisquer colunas necessárias.

Tamanho do arquivo de dados

O tamanho do arquivo de dados de hit varia muito dependendo do número de variáveis usadas ativamente e da quantidade de tráfego no conjunto de relatórios. Contudo, em média, uma linha de dados tem aproximadamente 500 B (compactada) ou 2 KB (descompactada). Multiplicar isso pelo número de chamadas de servidor pode fornecer uma estimativa aproximada do tamanho que um feed de dados terá. Assim que suas organizações começarem a receber arquivos de feed de dados, você poderá encontrar um número mais preciso dividindo o número de linhas hit_data.tsv pelo tamanho total do arquivo.

recommendation-more-help
6b7d49d5-f5fe-4b7f-91ae-5b0745755ed2