Formatos de archivo del conjunto de clasificaciones
Los conjuntos de clasificaciones admiten varios formatos de archivo para la carga masiva de datos de clasificación. Cada formato tiene requisitos específicos para que las cargas de datos se realicen correctamente.
Una vez que el archivo tenga el formato correcto según estas especificaciones, puede cargarlo a través de la interfaz o la API de conjuntos de clasificaciones. Para obtener instrucciones detalladas de carga:
- Carga del explorador: vea Esquema
- Carga de API: Consulte API de clasificaciones de Analytics
Los conjuntos de clasificaciones admiten los siguientes formatos de archivo:
- JSON: archivos de notación de objetos de JavaScript con datos estructurados
- CSV: archivos de valores separados por comas
- TSV/TAB: archivos de valores separados por tabulaciones
Requisitos generales de archivo
Todos los formatos de archivo deben cumplir los siguientes requisitos:
- Codificación de archivos: utilice UTF-8 sin marcas de orden de bytes. También se admite la codificación Latin1.
- Límites de caracteres: Los valores de clasificación individuales tienen un límite máximo de 255 bytes.
- Requisitos de clave: los valores de clave no pueden estar vacíos ni contener solo espacios en blanco. Si hay claves duplicadas, se utiliza la última ocurrencia.
El formato de archivo JSON sigue las convenciones de las líneas JSON (JSONL). El archivo debe contener un objeto JSON por línea, donde cada objeto representa un único registro de clasificación.
note note |
---|
NOTE |
A pesar de las siguientes convenciones para líneas JSON, utilice la extensión de archivo .json para todas las cargas. El uso de la extensión .jsonl puede provocar errores. |
Estructura JSON
Cada objeto JSON debe contener:
-
key
(obligatorio): El identificador único del registro de clasificación -
data
(requerido para actualizaciones): un objeto que contiene nombres de columnas de clasificación y sus valores -
action
(opcional): la acción que se va a realizar. Los valores admitidos son:update
(predeterminado)delete-field
delete-key
-
enc
(opcional): especificación de codificación de datos. Los valores admitidos son:utf8
oUTF8
(predeterminado)latin1
oLATIN1
Todos los nombres de campo JSON (key
, data
, action
, enc
) distinguen entre mayúsculas y minúsculas y deben escribirse en minúsculas.
Ejemplos de JSON
Registro de actualización básica:
code language-json |
---|
|
Actualización con codificación especificada:
code language-json |
---|
|
Eliminar campos específicos:
code language-json |
---|
|
Eliminar toda la clave:
code language-json |
---|
|
Reglas de validación de JSON
- El campo
key
es obligatorio y no puede ser nulo ni estar vacío. - Para las acciones
update
, el campodata
es obligatorio y no puede estar vacío. - Para las acciones
delete-field
, el campodata
debe contener los campos que se van a eliminar. - Para las acciones
delete-key
, el campodata
no debe estar presente. - Los valores de codificación admitidos no distinguen entre mayúsculas y minúsculas e incluyen nombres de conjuntos de caracteres estándar.
Los archivos CSV (valores separados por comas) utilizan comas para separar los campos de datos de clasificación.
Estructura CSV
- Fila de encabezado: la primera fila debe contener encabezados de columna y la primera columna debe ser la columna de clave. Las columnas posteriores deben coincidir con los nombres del esquema del conjunto de clasificaciones.
- Filas de datos: Cada fila subsiguiente contiene datos de clasificación
- Delimitadores: los campos están separados por comas
- Comillas: los campos que contienen comas, comillas o líneas nuevas deben escribirse entre comillas dobles
Ejemplos de CSV
Datos básicos de clasificación:
code language-csv |
---|
|
Eliminar toda la clave:
code language-csv |
---|
|
Eliminar campos específicos (mezclados con actualizaciones):
code language-csv |
---|
|
Reglas de formato CSV
- Los campos que contienen comas deben ir entre comillas dobles
- Los campos que contienen comillas dobles deben escapar de las comillas duplicándolas (
""
) - Los campos vacíos representan valores nulos para esa clasificación
- Los espacios iniciales y finales alrededor de los campos se recortan automáticamente
- Se conservan los caracteres especiales (pestañas, líneas nuevas) dentro de los campos entre comillas
Eliminar operaciones:
- Use
~deletekey~
en cualquier campo para eliminar toda la clave y todos sus datos de clasificación - Utilice
~empty~
en campos específicos para eliminar solo esos valores de clasificación (deja otros campos intactos) - Al usar
~empty~
, puede combinar eliminaciones con actualizaciones en el mismo archivo
Los archivos TSV (valores separados por tabulaciones) y TAB utilizan caracteres de tabulación para separar los campos de datos de clasificación.
Estructura de TSV/TAB
- Fila de encabezado: la primera fila debe contener encabezados de columna y la primera columna debe ser la columna de clave. Las columnas posteriores deben coincidir con los nombres del esquema del conjunto de clasificaciones.
- Filas de datos: Cada fila subsiguiente contiene datos de clasificación
- Delimitadores: los campos están separados por caracteres de tabulación (
\t
) - Citación: Generalmente no se necesita entrecomillado, pero algunas implementaciones admiten campos entre comillas
Ejemplos de TSV/TAB
Datos básicos de clasificación:
code language-tsv |
---|
|
Eliminar toda la clave:
code language-tsv |
---|
|
Eliminar campos específicos (mezclados con actualizaciones):
code language-tsv |
---|
|
Reglas de formato TSV/TAB
- Los campos están separados por caracteres de una sola pestaña
- Los campos vacíos (pestañas consecutivas) representan valores nulos
- No suele ser necesario un presupuesto especial
- Se conservan los espacios iniciales y finales
- Deben evitarse los caracteres de nueva línea dentro de los campos
Eliminar operaciones:
- Use
~deletekey~
en cualquier campo para eliminar toda la clave y todos sus datos de clasificación - Utilice
~empty~
en campos específicos para eliminar solo esos valores de clasificación (deja otros campos intactos) - Al usar
~empty~
, puede combinar eliminaciones con actualizaciones en el mismo archivo
Control de errores
Problemas y soluciones comunes de carga:
Errores generales de formato de archivo
- Formato de archivo no válido: compruebe que la extensión de archivo coincide con el formato de contenido (.json, .csv, .tsv o .tab).
- "Encabezado desconocido": los nombres de columna deben coincidir con el esquema del conjunto de clasificaciones (se aplica a todos los formatos).
Errores específicos de CSV/TSV
- "Se requiere que la primera columna sea la clave": Asegúrese de que el archivo CSV/TSV tenga una fila de encabezado adecuada con la columna clave primero.
- "Se requiere un mínimo de dos elementos de encabezado": Los archivos CSV/TSV deben tener al menos una columna "Clave" y una columna de clasificación.
- "La primera columna de encabezado debe llamarse 'Key'": El encabezado de la primera columna debe ser exactamente "Key" (mayúscula K, distingue mayúsculas de minúsculas).
- "No se permiten encabezados en blanco": todos los encabezados de columna CSV/TSV deben tener nombres.
- "El número de columnas no coincide con los encabezados": cada fila de datos CSV/TSV debe tener el mismo número de campos que la fila de encabezado.
- "Documento mal formado": compruebe el entrecomillado del CSV, la separación correcta de tabulaciones en los archivos TSV, etc.
Errores específicos de JSON
- "La clave es un campo obligatorio": Todos los registros JSON deben tener un campo
"key"
no vacío (en minúsculas, con distinción de mayúsculas y minúsculas). - "Los datos son un campo obligatorio al usar action=update": las acciones de actualización de JSON deben incluir un campo
"data"
. - "Los datos son un campo obligatorio al usar action=delete-field": las acciones de eliminar campos JSON deben especificar qué campos eliminar en el campo
"data"
. - "Los datos no deben estar presentes al usar action=delete-key": las acciones de eliminar clave JSON no pueden incluir un campo
"data"
. - "Codificación no admitida": use solo valores de codificación admitidos en el campo
"enc"
(utf8, UTF8, latin1, LATIN1). - Sintaxis JSON no válida: Asegúrese de que el archivo JSON tiene el formato correcto según las convenciones JSONL. Compruebe también si hay formato JSON general, comillas, comas, corchetes, etc.
Errores de límite de tamaño
- "La clave supera el tamaño máximo": las claves individuales no pueden superar los 255 bytes.
- "El valor de columna supera el tamaño máximo": Los valores de clasificación individual no pueden superar los 255 bytes.
Prácticas recomendadas
- Tamaño de archivo: 50 MB es el tamaño máximo de archivo para las cargas de explorador y API.
- Procesamiento por lotes: Para conjuntos de datos grandes, considere la posibilidad de dividirlos en archivos más pequeños.
- Validación de datos: realice pruebas con un archivo de muestra pequeño antes de cargar conjuntos de datos grandes.
- Copia de seguridad: conserve copias de los archivos de datos de origen.
- Actualizaciones incrementales: use el formato JSON para un control preciso de las actualizaciones y eliminaciones de registros individuales.