Formati dei file del set di classificazione
I set di classificazione supportano più formati di file per il caricamento in blocco dei dati di classificazione. Ogni formato ha requisiti specifici per caricamenti di dati riusciti.
Una volta che il file è formattato correttamente in base a queste specifiche, puoi caricarlo tramite l’interfaccia o l’API dei set di classificazione. Per istruzioni di caricamento dettagliate:
- Caricamento browser: Vedere Schema
- Caricamento API: vedi API classificazioni di Analytics
I set di classificazione supportano i seguenti formati di file:
- JSON: file di notazione dell'oggetto JavaScript con dati strutturati
- CSV: file di valori separati da virgole
- TSV/TAB: file di valori separati da tabulazioni
Requisiti generali dei file
Tutti i formati di file devono rispettare i seguenti requisiti:
- Codifica file: utilizzare UTF-8 senza indicatori di ordine dei byte. È supportata anche la codifica Latin1.
- Limiti dei caratteri: i singoli valori di classificazione hanno un limite massimo di 255 byte.
- Requisiti chiave: i valori chiave non possono essere vuoti o contenere solo spazi vuoti. Se sono presenti chiavi duplicate, viene utilizzata l’ultima occorrenza.
Il formato del file JSON segue le convenzioni per le linee JSON (JSONL). Il file deve contenere un oggetto JSON per riga, dove ogni oggetto rappresenta un singolo record di classificazione.
note note |
---|
NOTE |
Nonostante le seguenti convenzioni per le righe JSON, utilizza l'estensione di file .json per tutti i caricamenti. L'utilizzo dell'estensione .jsonl può causare errori. |
Struttura JSON
Ogni oggetto JSON deve contenere:
-
key
(obbligatorio): identificatore univoco per il record di classificazione -
data
(obbligatorio per gli aggiornamenti): oggetto contenente i nomi delle colonne di classificazione e i relativi valori -
action
(facoltativo): azione da eseguire. I valori supportati includono:update
(predefinito)delete-field
delete-key
-
enc
(facoltativo): specifica di codifica dati. I valori supportati includono:utf8
oUTF8
(impostazione predefinita)latin1
oLATIN1
Tutti i nomi di campo JSON (key
, data
, action
, enc
) fanno distinzione tra maiuscole e minuscole e devono essere minuscole.
Esempi JSON
Record aggiornamento di base:
code language-json |
---|
|
Aggiornamento con codifica specificata:
code language-json |
---|
|
Elimina campi specifici:
code language-json |
---|
|
Elimina chiave intera:
code language-json |
---|
|
Regole di convalida JSON
- Il campo
key
è obbligatorio e non può essere nullo o vuoto. - Per le azioni
update
, il campodata
è obbligatorio e non può essere vuoto. - Per le azioni
delete-field
, il campodata
deve contenere i campi da eliminare. - Per le azioni
delete-key
, il campodata
non deve essere presente. - I valori di codifica supportati non fanno distinzione tra maiuscole e minuscole e includono nomi di set di caratteri standard.
I file CSV (Comma-Separated Values, Valori separati da virgole) utilizzano le virgole per separare i campi dei dati di classificazione.
Struttura CSV
- Riga intestazione: la prima riga deve contenere intestazioni di colonna e la prima colonna deve essere la colonna chiave. Le colonne successive devono corrispondere ai nomi nello schema del set di classificazione
- Righe dati: ogni riga successiva contiene dati di classificazione
- Delimitatori: i campi sono separati da virgole
- Virgolette: i campi contenenti virgole, virgolette o nuove righe devono essere racchiusi tra virgolette doppie
Esempi di CSV
Dati di classificazione di base:
code language-csv |
---|
|
Elimina chiave intera:
code language-csv |
---|
|
Elimina campi specifici (insieme agli aggiornamenti):
code language-csv |
---|
|
Regole di formattazione CSV
- I campi contenenti virgole devono essere racchiusi tra virgolette doppie
- I campi contenenti virgolette doppie devono essere preceduti da virgolette di escape doppie (
""
) - I campi vuoti rappresentano valori nulli per tale classificazione
- Gli spazi iniziali e finali intorno ai campi vengono tagliati automaticamente
- I caratteri speciali (tabulazioni, nuove righe) nei campi tra virgolette vengono mantenuti
Operazioni di eliminazione:
- Utilizza
~deletekey~
in qualsiasi campo per eliminare l'intera chiave e tutti i relativi dati di classificazione - Utilizza
~empty~
in campi specifici per eliminare solo i valori di classificazione (lasciando invariati gli altri campi) - Quando si utilizza
~empty~
, è possibile combinare eliminazioni con aggiornamenti nello stesso file
I file TSV (Valori separati da tabulazioni) e TAB utilizzano i caratteri di tabulazione per separare i campi dei dati di classificazione.
Struttura TSV/TAB
- Riga intestazione: la prima riga deve contenere intestazioni di colonna e la prima colonna deve essere la colonna chiave. Le colonne successive devono corrispondere ai nomi nello schema del set di classificazione
- Righe dati: ogni riga successiva contiene dati di classificazione
- Delimitatori: i campi sono separati da caratteri di tabulazione (
\t
) - Virgolette: in genere non sono necessarie virgolette, ma alcune implementazioni supportano campi tra virgolette
Esempi di TSV/TAB
Dati di classificazione di base:
code language-tsv |
---|
|
Elimina chiave intera:
code language-tsv |
---|
|
Elimina campi specifici (insieme agli aggiornamenti):
code language-tsv |
---|
|
Regole di formattazione TSV/TAB
- I campi sono separati da caratteri di tabulazione singoli
- I campi vuoti (schede consecutive) rappresentano valori Null
- In genere non sono richieste virgolette speciali
- Gli spazi iniziali e finali vengono mantenuti
- Evitare l’utilizzo di caratteri di nuova riga all’interno dei campi
Operazioni di eliminazione:
- Utilizza
~deletekey~
in qualsiasi campo per eliminare l'intera chiave e tutti i relativi dati di classificazione - Utilizza
~empty~
in campi specifici per eliminare solo i valori di classificazione (lasciando invariati gli altri campi) - Quando si utilizza
~empty~
, è possibile combinare eliminazioni con aggiornamenti nello stesso file
Gestione degli errori
Problemi di caricamento comuni e soluzioni:
Errori generali nel formato del file
- Formato file non valido: verificare che l'estensione del file corrisponda al formato del contenuto (.json, .csv, .tsv o .tab).
- "Intestazione sconosciuta": i nomi delle colonne devono corrispondere allo schema del set di classificazione (si applica a tutti i formati).
Errori specifici CSV/TSV
- "La prima colonna deve essere la chiave": verificare che il file CSV/TSV contenga una riga di intestazione corretta con la colonna chiave.
- "Sono necessari almeno due elementi di intestazione": i file CSV/TSV devono avere almeno una colonna "Chiave" e una colonna di classificazione.
- "La prima colonna di intestazione deve essere denominata 'Key'": l'intestazione della prima colonna deve essere esattamente "Key" (maiuscolo K, con distinzione tra maiuscole e minuscole).
- "Le intestazioni vuote non sono consentite": tutte le intestazioni di colonna CSV/TSV devono avere nomi.
- "Il numero di colonne non corrisponde alle intestazioni": ogni riga di dati CSV/TSV deve avere lo stesso numero di campi della riga di intestazione.
- "Documento in formato non valido": controllare le virgolette CSV, la separazione delle tabulazioni nei file TSV e così via.
Errori specifici JSON
- "La chiave è un campo obbligatorio": tutti i record JSON devono avere un campo
"key"
non vuoto (minuscolo, distinzione maiuscole/minuscole). - "I dati sono un campo obbligatorio quando si utilizza action=update": le azioni di aggiornamento JSON devono includere un campo
"data"
. - "I dati sono un campo obbligatorio quando si utilizza action=delete-field": Le azioni di eliminazione JSON devono specificare quali campi eliminare nel campo
"data"
. - "I dati non devono essere presenti quando si utilizza action=delete-key": Le azioni chiave di eliminazione JSON non possono includere un campo
"data"
. - "Codifica non supportata": utilizzare solo i valori di codifica supportati nel campo
"enc"
(utf8, UTF8, latin1, LATIN1). - Sintassi JSON non valida: verifica che il file JSON sia formattato correttamente in base alle convenzioni JSONL. Controlla anche la formattazione JSON generale, le virgolette mancanti, le virgole, le parentesi quadre, ecc.
Errori di limite di dimensione
- "La chiave supera la dimensione massima": le singole chiavi non possono superare i 255 byte.
- "Il valore della colonna supera la dimensione massima": i singoli valori di classificazione non possono superare i 255 byte.
Best practice
- Dimensione file: 50 MB è la dimensione massima del file per i caricamenti del browser e dell'API.
- Elaborazione batch: per i set di dati di grandi dimensioni, è consigliabile suddividerli in file più piccoli.
- Convalida dei dati: verifica con un piccolo file di esempio prima di caricare set di dati di grandi dimensioni.
- Backup: mantieni copie dei file di dati di origine.
- Aggiornamenti incrementali: utilizza il formato JSON per un controllo preciso degli aggiornamenti e delle eliminazioni dei singoli record.