Contenu du flux de données - Aperçu
Les sections suivantes décrivent comment accéder aux fichiers trouvés dans une diffusion de flux de données et les comprendre.
Accès au contenu des flux de données
Pour accéder au contenu d’un flux de données :
-
Connectez-vous au site de destination des flux de données.
Il s’agit du site de destination que vous configurez lors de la création du flux de données, par exemple un compartiment Amazon S3 ou Google Cloud Platform.
-
Téléchargez le fichier de flux de données compressé sur votre machine locale.
-
Décompressez le fichier comprimé à l’aide d’un programme qui prend en charge les extensions de fichier
.tar.gz
. -
Ouvrez le fichier
hit_data.tsv
dans votre application de tableur ou de base de données de votre choix pour afficher les données brutes pour cette journée. —>
Fichier de manifeste feed-manifest
Le fichier de manifeste contient les informations suivantes sur chaque fichier qui compose le jeu de données téléchargé :
- Nom du fichier
- Taille du fichier
- Hachage MD5
- Nombre d’enregistrements dans le fichier.
Le fichier de manifeste utilise le même format qu’un fichier de manifeste JAR Java.
Le fichier de manifeste est toujours livré sous la forme d’un fichier .txt
distinct. Par conséquent, son existence indique que l’ensemble du jeu de données relatif à cette période de demande a été livré. La dénomination des fichiers de manifeste applique le schéma suivant :
[rsid]_[YYYY-mm-dd].txt
Un fichier de manifeste type contient des données semblables à celles indiquées ci-dessous :
Datafeed-Manifest-Version: 1.0
Lookup-Files: 1
Data-Files: 1
Total-Records: 611
Lookup-File: rsid_date-lookup_data.tar.gz
MD5-Digest: af6de42d8b945d4ec1cf28360085308
File-Size: 63750
Data-File: 01-rsid_date.tsv.gz
MD5-Digest: 9c70bf783cb3d0095a4836904b72c991
File-Size: 122534
Record-Count: 611
Chaque fichier de manifeste contient un en-tête qui indique le nombre total de fichiers de recherche et de fichiers de données, ainsi que le total des enregistrements dans tous les fichiers de données. Cet en-tête est suivi de plusieurs sections qui contiennent des informations pour chaque fichier inclus dans la remise du flux de données.
Certains flux sont configurés en vue de recevoir un fichier .fin
plutôt qu’un manifeste .txt
. Le fichier .fin
indique que le chargement est terminé, mais qu’il ne contient aucune métadonnée sur le téléchargement.
Fichiers de recherche
Certaines colonnes de flux de données sortent un nombre qui correspond à sa valeur réelle. Les fichiers de recherche sont utilisés pour faire correspondre un nombre d’une colonne de flux de données à sa valeur réelle. Par exemple, une valeur « 497 » dans la colonne de données d’accès browser
indique que l’accès provient de « Microsoft Internet Explorer 8 » si vous recherchez dans browser.tsv
.
Notez que les fichiers column_headers.tsv
et event_list.tsv
sont spécifiques au flux de données et à la suite de rapports. D’autres fichiers, tels que browser.tsv
, sont génériques.
La remise des fichiers de recherche s’effectue dans une archive .zip compressée selon la syntaxe suivante :
[rsid]_[YYYY-mm-dd]-lookup_data.[compression_suffix]
column_headers.tsv
: Une seule ligne contenant les en-têtes de colonne pourhit_data.tsv
.browser.tsv
: Met en correspondance l’ID du navigateur (lebrowser
de flux) au nom convivial du navigateur.browser_type.tsv
: Met en correspondance l’ID du navigateur (lebrowser
colonne flux) au type de navigateur.color_depth.tsv
: Mappe l’identifiant de profondeur de couleur (le paramètrecolor
colonne flux) en profondeur de couleur.connection_type.tsv
: Mappe l’ID de type de connexion (leconnection_type
colonne flux) au type de connexion.country.tsv
: Met en correspondance l’ID de pays (lecountry
colonne flux) au nom du pays.javascript_version.tsv
: Mappe l’ID de version JavaScript (lejavascript
la colonne flux) vers la version JavaScript.languages.tsv
: Met en correspondance l’ID de langue (lelanguage
colonne flux) vers la langue.operating_systems.tsv
: Met en correspondance l’identifiant du système d’exploitation (leos
de flux) au nom du système d’exploitation.plugins.tsv
: Met en correspondance les identifiants du module externe (leplugin
colonne flux) à chaque nom de module externe respectif.resolution.tsv
: Met en correspondance l’ID de résolution (leresolution
colonne flux) à la résolution de l’écran.referrer_type.tsv
: Mappe l’ID du type de référent (leref_type
colonne flux) au type de référent.search_engines.tsv
: Met en correspondance l’identifiant du moteur de recherche (lesearch_engine
colonne flux) au nom du moteur de recherche.event.tsv
: Met en correspondance chaque ID d’événement (leevent_list
de flux) à son nom d’événement respectif.
Fichiers de données d’accès
Les données d’accès sont fournies dans un fichier hit_data.tsv
. La quantité de données qu’il contient est déterminée par le format de remise (horaire ou quotidien et un seul ou plusieurs fichiers). Ce fichier ne contient que des données d’accès. Les en-têtes de colonne sont remis séparément avec les fichiers de recherche. Chaque ligne de ce fichier contient un seul appel de serveur.
Les fichiers livrés par Adobe dépendent du type de flux de données que vous avez configuré. Tous les fichiers sont chiffrés selon la norme ISO-8859-1.
[rsid]
fait référence à l’identifiant de suite de rapports d’où le flux de données provient.[index]
n’est utilisé que pour les flux de plusieurs fichiers et fait référence à l’ordre correct des fichiers paginés.[YYYY-mm-dd]
fait référence à la date de départ relative au flux de données.[HHMMSS]
n’est utilisé que dans les flux horaires et fait référence à l’heure de départ du flux de données.[compression_suffix]
fait référence au type de compression utilisé. En règle générale, les flux de données sont compressés en fichierstar.gz
ouzip
.
Quotidien, un seul fichier
Lorsque les données sont collectées pour une journée, vous recevez un fichier de données compressé unique et un fichier de manifeste. Le fichier de données s’intitule :
[rsid]_[YYYY-mm-dd].[compression_suffix]
Après extraction, le fichier de données contient un fichier hit_data.tsv
unique qui contient toutes les données pour cette journée, ainsi que les fichiers de recherche pour toutes les colonnes demandées.
Quotidien, plusieurs fichiers
Lorsque les données sont collectées pour une journée, vous recevez un ou plusieurs fichiers de données compressés et un fichier de manifeste. Le fichier de données s’intitule :
[index]-[rsid]_[YYYY-mm-dd].[compression_suffix]
Après extraction, chaque fichier de données contient un fichier hit_data.tsv
unique qui contient environ 2 Go de données non compressées, ainsi que des fichiers de recherche pour toutes les colonnes demandées.
Horaire, un seul fichier
Lorsque les données sont collectées pour une heure, vous recevez un fichier de données compressé unique et un fichier de manifeste. Le fichier de données s’intitule :
[rsid]_[YYYYmmdd]-[HHMMSS].[compression_suffix]
Après extraction, le fichier de données contient un fichier hit_data.tsv
unique qui contient toutes les données pour cette heure, ainsi que les fichiers de recherche pour toutes les colonnes demandées.
Horaire, plusieurs fichiers
Lorsque les données sont collectées pour une heure, vous recevez un ou plusieurs fichiers de données compressés et un fichier de manifeste. Le fichier de données s’intitule :
[index]-[rsid]_[YYYYmmdd]-[HHMMSS].[compression_suffix]
Après extraction, chaque fichier de données contient un fichier unique hit_data.tsv
qui contient environ 2 Go de données non compressées, ainsi que des fichiers de recherche pour toutes les colonnes demandées.
Taille du fichier de données
Le fichier de données d’accès varie considérablement en fonction du nombre de variables utilisées de manière active et du trafic envoyé vers la suite de rapports. Cependant, la taille d’une ligne de données est, en moyenne, de 500 octets (format compressé) ou de 2 Ko (format non compressé). Vous pouvez multiplier cette valeur par le nombre d’appels au serveur pour obtenir une estimation approximative de la taille du fichier de flux de données. Lorsque votre entreprise commence à recevoir des fichiers de flux de données, vous pouvez obtenir un nombre plus précis en divisant le nombre de lignes dans hit_data.tsv
par la taille totale du fichier.