Resumen del contenido de las fuentes de datos
Las secciones siguientes describen cómo acceder y comprender los archivos que se encuentran en una entrega de fuentes de datos.
Acceso al contenido de fuentes de datos
Para acceder al contenido de una fuente de datos:
-
Inicie sesión en el sitio de destino de la fuente de datos.
Este es el sitio de destino que configura al crear la fuente de datos, como un bloque de Amazon S3 o Google Cloud Platform.
-
Descargue el archivo de fuente de datos comprimido en el equipo local.
-
Descomprima el archivo comprimido con un programa que admita extensiones de archivo
.tar.gz
. -
Abra el archivo
hit_data.tsv
en la hoja de cálculo o aplicación de base de datos que desee para ver los datos sin procesar de ese día. —>
Archivo de manifiesto feed-manifest
El archivo de manifiesto contiene los siguientes detalles sobre cada archivo que forma parte del conjunto de datos cargados:
- Nombre del archivo
- Tamaño del archivo
- hash MD5
- Cantidad de registros incluidos en el archivo
El archivo de manifiesto sigue el mismo formato que un archivo de manifiesto JAR de Java.
El archivo de manifiesto siempre se entrega en último lugar como un archivo .txt
independiente, de forma que su presencia indica que ya se ha entregado el conjunto de datos completo de ese período de solicitud. Los nombres de los archivos de manifiesto se asignan según los criterios siguientes:
[rsid]_[YYYY-mm-dd].txt
Un archivo de manifiesto típico contiene datos parecidos a los siguientes:
Datafeed-Manifest-Version: 1.0
Lookup-Files: 1
Data-Files: 1
Total-Records: 611
Lookup-File: rsid_date-lookup_data.tar.gz
MD5-Digest: af6de42d8b945d4ec1cf28360085308
File-Size: 63750
Data-File: 01-rsid_date.tsv.gz
MD5-Digest: 9c70bf783cb3d0095a4836904b72c991
File-Size: 122534
Record-Count: 611
Cada archivo de manifiesto contiene un encabezado, que indica el número total de archivos de búsqueda, archivos de datos y el número total de registros incluidos en todos los archivos de datos. Este encabezado va seguido de varias secciones que contienen información para cada archivo incluido en la entrega de fuente de datos.
Algunas fuentes están configuradas para recibir un archivo .fin
en lugar de un manifiesto .txt
. .fin
indica que la carga se ha completado, pero los metadatos que contiene tienen un formato anterior.
Archivos de búsqueda
Algunas columnas de fuentes de datos muestran un número que corresponde a su valor real. Los archivos de búsqueda se utilizan para hacer coincidir un número de una columna de fuente de datos con un valor real. Por ejemplo, un valor de “497” en la columna de datos de visitas browser
indica que la visita procede de "Microsoft Internet Explorer 8" si se mira en browser.tsv
.
Tenga en cuenta que column_headers.tsv
y event_list.tsv
son específicos de la fuente de datos y del grupo de informes. Otros archivos, como puede ser browser.tsv
, son genéricos.
Los archivos de búsqueda se entregan juntos en un zip comprimido al que se le asigna un nombre según los criterios siguientes:
[rsid]_[YYYY-mm-dd]-lookup_data.[compression_suffix]
column_headers.tsv
: una sola fila que contiene los encabezados de columna dehit_data.tsv
.browser.tsv
: asigna el identificador de explorador (la columna de fuentebrowser
) al nombre descriptivo del explorador.browser_type.tsv
: asigna el identificador de explorador (la columna de fuentebrowser
) al tipo de explorador.color_depth.tsv
: asigna el identificador de profundidad de color (la columna de fuentecolor
) a la profundidad de color.connection_type.tsv
: asigna el identificador de tipo de conexión (la columna de fuenteconnection_type
) al tipo de conexión.country.tsv
: asigna el identificador de país (la columna de fuentecountry
) al nombre del país.javascript_version.tsv
: asigna el identificador de versión de JavaScript (la columna de fuentejavascript
) a la versión de JavaScript.languages.tsv
: asigna el identificador de idioma (la columna de fuentelanguage
) al idioma.operating_systems.tsv
: asigna el identificador del sistema operativo (la columna de fuenteos
) al nombre del sistema operativo.plugins.tsv
: asigna los ID de complemento (la columna de fuenteplugin
) a cada nombre de complemento correspondiente.resolution.tsv
: asigna el identificador de resolución (la columna de fuenteresolution
) a la resolución del monitor.referrer_type.tsv
: asigna el id. de tipo de referente (la columna de fuenteref_type
) al tipo de referente.search_engines.tsv
: asigna el identificador de motor de búsqueda (la columna de fuentesearch_engine
) al nombre del motor de búsqueda.event.tsv
: asigna cada ID de evento (la columna de fuenteevent_list
) a su nombre de evento respectivo.
Archivos de datos de visitas
Los datos de visitas se proporcionan en un archivo hit_data.tsv
. La cantidad de datos incluida en este archivo viene determinada por el formato de entrega (por hora o por día, y en un archivo o en varios). El archivo contiene solo datos de visitas. Los encabezados de columna se entregan por separado con los archivos de búsqueda. Cada fila del archivo contiene una sola llamada al servidor.
Los archivos que Adobe entrega varían en función del tipo de fuente de datos que usted haya configurado. Todos los archivos se codifican con ISO-8859-1.
[rsid]
hace referencia al ID del grupo de informes desde el que proviene el origen de datos.[index]
solo se utiliza en varias fuentes de archivos y hace referencia al orden correcto de los archivos paginados.[YYYY-mm-dd]
hace referencia al día de inicio del origen de datos.[HHMMSS]
solo se utiliza en fuentes por hora y se refiere a la hora de inicio para la que está la fuente de datos.[compression_suffix]
hace referencia al tipo de compresión utilizado. Normalmente, las fuentes de datos se comprimen entar.gz
ozip
archivos.[format_suffix]
hace referencia al tipo de formato de archivo. Normalmente, el formato del archivo de fuente de datos es.tsv
.
A diario, archivo único
Una vez recopilados los datos durante un día, recibirá un único archivo de datos comprimido y un archivo de manifiesto. El nombre del archivo de datos es:
[rsid]_[YYYY-mm-dd].[compression_suffix]
Cuando se extrae, el archivo de datos contiene un único archivo hit_data.tsv
con todos los datos de ese día, así como archivos de búsqueda para las columnas requeridas.
Diariamente, varios archivos
Una vez recopilados los datos durante un día, recibirá uno o varios archivos de datos comprimidos y un archivo de manifiesto. El nombre del archivo de datos es:
[index]-[rsid]_[YYYY-mm-dd].[compression_suffix]
Cuando se extrae, cada archivo de datos contiene un único [index]-[rsid]_[YYYY-mm-dd].[format_suffix]
que contiene aproximadamente 2 GB de datos sin comprimir, así como archivos de búsqueda para cualquier columna requerida.
Cada hora, un solo archivo
Una vez recopilados los datos durante una hora, recibirá un único archivo de datos comprimido y un archivo de manifiesto. El nombre del archivo de datos es:
[rsid]_[YYYYmmdd]-[HHMMSS].[compression_suffix]
Cuando se extrae, el archivo de datos contiene un solo archivo hit_data.tsv
con todos los datos de esa hora, así como archivos de búsqueda de las columnas requeridas.
Por hora, varios archivos
Una vez recopilados los datos durante una hora, recibirá uno o más archivos de datos comprimidos y un archivo de manifiesto. Los archivos de datos se denominan:
[index]-[rsid]_[YYYYmmdd]-[HHMMSS].[format_suffix].[compression_suffix]
Cuando se extrae, cada archivo de datos contiene un único archivo de [index]-[rsid]_[YYYYmmdd]-[HHMMSS].[format_suffix]
que contiene aproximadamente 2 GB de datos sin comprimir, así como archivos de búsqueda para las columnas requeridas.
Tamaño del archivo de datos
El tamaño del archivo de datos de la visita varía en gran medida en función del número de variables que se usa de forma actica y del volumen de tráfico enviado al grupo de informes. Sin embargo, una fila de datos tiene un tamaño medio aproximado de 500 B (comprimido) o de 2 KB (sin comprimir). Si se multiplica esta cifra por el número de llamadas al servidor, se puede obtener un cálculo aproximado del tamaño del archivo de la fuente de datos. Una vez que las organizaciones empiecen a recibir archivos de fuente de datos, puede obtener un número más preciso dividiendo el número de filas en hit_data.tsv
por el tamaño total del archivo.