Bestandsindelingen voor classificatieset
Classificatiesets ondersteunen meerdere bestandsindelingen voor het uploaden van classificatiegegevens. Elke indeling heeft specifieke vereisten voor het uploaden van gegevens.
Wanneer het bestand correct is opgemaakt volgens deze specificaties, kunt u de gegevens uploaden via de interface of API voor classificatiesets. Voor gedetailleerde uploadinstructies:
- Browser uploadt: Zie uploaden in de interface van het Schema voor een classificatiereeks.
- API uploadt: Zie Classificaties API van Analytics
Classificatiesets ondersteunen de volgende bestandsindelingen:
- JSON: De dossiers van de Nota van de Objecten van JavaScript met gestructureerde gegevens
- CSV: komma-gescheiden waardedossiers
- TSV/TAB: lusje-gescheiden waardedossiers
Algemene bestandsvereisten
Alle bestandsindelingen moeten aan de volgende vereisten voldoen:
- het coderen van het Dossier: Gebruik UTF-8 zonder byte-orde tekens. Latin1-codering wordt ook ondersteund.
- de grenzen van het Karakter: De individuele classificatiewaarden hebben een maximumgrens van 255 bytes.
- Zeer belangrijke vereisten: De zeer belangrijke waarden kunnen niet leeg zijn of slechts whitespace bevatten. Als dubbele sleutels aanwezig zijn, wordt het laatste voorkomen gebruikt.
De JSON-bestandsindeling volgt conventies voor JSON Lines (JSONL). Het bestand moet één JSON-object per regel bevatten, waarbij elk object één classificatierecord vertegenwoordigt.
| note note |
|---|
| NOTE |
Gebruik, ondanks de volgende conventies voor JSON Lines, de bestandsextensie .json voor alle uploads. Het gebruik van de extensie .jsonl kan leiden tot fouten. |
JSON-structuur
Elk JSON-object moet het volgende bevatten:
-
key(vereist): De unieke id voor het classificatierecord -
data(vereist voor updates): een object dat de namen en waarden van classificatiekolom bevat -
action(optioneel): De handeling die moet worden uitgevoerd. Tot de ondersteunde waarden behoren:update(standaardwaarde)delete-fielddelete-key
-
enc(optioneel): specificatie voor gegevenscodering. Tot de ondersteunde waarden behoren:utf8ofUTF8(standaardwaarde)latin1ofLATIN1
Alle JSON-veldnamen (key, data, action, enc) zijn hoofdlettergevoelig en moeten in kleine letters worden geschreven.
JSON-voorbeelden
Basis updaterecord:
| code language-json |
|---|
|
Update met gespecificeerde het coderen:
| code language-json |
|---|
|
Schrap specifieke gebieden:
| code language-json |
|---|
|
Schrap een volledige sleutel:
| code language-json |
|---|
|
JSON-validatieregels
- Het veld
keyis vereist en mag niet null of leeg zijn. - Voor
update-handelingen is het velddatavereist en mag het niet leeg zijn. - Voor
delete-field-handelingen moet het velddatade velden bevatten die moeten worden verwijderd. - Voor
delete-key-handelingen mag het velddataniet aanwezig zijn. - Ondersteunde coderingswaarden zijn niet hoofdlettergevoelig en bevatten standaardnamen voor tekensets.
CSV-bestanden (met door komma's gescheiden waarden) gebruiken komma's om classificatiegegevensvelden te scheiden.
CSV-structuur
- de rij van de Kopbal: De eerste rij moet kolomkopballen bevatten en de eerste kolom moet de belangrijkste kolom zijn. De volgende kolommen zouden namen in uw schema van de classificatieset van u moeten aanpassen
- de rijen van Gegevens: Elke verdere rij bevat classificatiegegevens
- Scheidingstekens: De gebieden worden gescheiden door komma's
- het Citeren: De gebieden die komma's, citaten, of newlines bevatten zouden in dubbele citaten moeten worden ingesloten
CSV-voorbeelden
Basisclassificatiegegevens:
| code language-csv |
|---|
|
Schrap een volledige sleutel:
| code language-csv |
|---|
|
Schrap specifieke gebieden (gemengd met updates):
| code language-csv |
|---|
|
CSV-opmaakregels
- Velden met komma's moeten tussen dubbele aanhalingstekens staan.
- Velden die dubbele aanhalingstekens bevatten, moeten aanhalingstekens omzeilen door deze te verdubbelen (
""). - Lege velden vertegenwoordigen null-waarden voor die classificatie.
- Voorloopspaties en volgspaties rond velden worden automatisch bijgesneden.
- Speciale tekens (tabs, newlines) in velden met een citaat blijven behouden.
de verrichtingen van de Schrapping:
- Gebruik
~deletekey~in elk veld om de gehele sleutel en alle classificatiegegevens te verwijderen - Gebruik
~empty~in specifieke velden om alleen die classificatiewaarden te verwijderen (laat andere velden intact) - Als u
~empty~gebruikt, kunt u verwijderingen combineren met updates in hetzelfde bestand
TSV (Door tabs gescheiden waarden) en TAB-bestanden gebruiken tabtekens om classificatiegegevensvelden te scheiden.
TSV- en TAB-structuur
- de rij van de Kopbal: De eerste rij moet kolomkopballen bevatten en de eerste kolom moet de belangrijkste kolom zijn. De volgende kolommen zouden namen in uw schema van de classificatieset van u moeten aanpassen.
- de rijen van Gegevens: Elke verdere rij bevat classificatiegegevens.
- Scheidingstekens: De gebieden worden gescheiden door lusjekarakters (
\t). - het Citeren: Over het algemeen is geen het citeren nodig, maar sommige implementaties steunen geciteerde gebieden.
Voorbeelden van TSV en TAB
Basisclassificatiegegevens:
| code language-tsv |
|---|
|
Schrap een volledige sleutel:
| code language-tsv |
|---|
|
Schrap specifieke gebieden (gemengd met updates):
| code language-tsv |
|---|
|
Opmaakregels voor TSV/TAB
- Velden worden gescheiden door enkele tabtekens.
- Lege velden (opeenvolgende tabbladen) vertegenwoordigen null-waarden.
- Er is doorgaans geen speciale aanhalingstekens vereist.
- De voorloopspaties en de navolgende spaties blijven behouden.
- Nieuwe regeltekens binnen velden moeten worden vermeden.
de verrichtingen van de Schrapping:
- Gebruik
~deletekey~in elk veld om de gehele sleutel en alle classificatiegegevens te verwijderen. - Gebruik
~empty~in specifieke velden om alleen die classificatiewaarden te verwijderen (en laat andere velden intact). - Als u
~empty~gebruikt, kunt u verwijderingen combineren met updates in hetzelfde bestand.
Foutafhandeling
Veelvoorkomende uploadproblemen en oplossingen:
Algemene fouten in bestandsindelingen
- Ongeldig dossierformaat: Verifieer dat uw dossieruitbreiding het inhoudsformaat (
.jsonaanpast,.csv,.tsv, of.tab). - Onbekende kopbal: De namen van de kolom moeten uw schema van de classificatieset (op alle formaten van toepassing is) aanpassen.
Specifieke fouten voor CSV en TSV
- Eerste kolom wordt vereist om sleutel te zijn: Zorg ervoor uw CSV of TSV dossier een juiste koptekstrij met de belangrijkste kolom eerst heeft.
- een minimum van twee kopbalpunten wordt vereist: CSV of TSV- dossiers moeten minstens a
Keykolom en één classificatiekolom hebben. - de eerste kopbalkolom moet "Sleutel"worden genoemd: De eerste kolomkopbal moet precies
Keyzijn (kapitaalK, case-sensitive). - Lege kopballen worden niet toegestaan: Alle CSV/TSV kolomkopballen moeten namen hebben.
- het aantal kolommen paste niet de kopballen aan: Elke CSV of TSV gegevensrij moet het zelfde aantal gebieden zoals de kopbalrij hebben.
- "Onjuist geformuleerd document: controleer CSV citerend, juiste lusjescheiding in TSV dossiers, en meer.
JSON-specifieke fouten
- Sleutel is een vereist gebied: Alle JSON- verslagen moeten een niet leeg
"key"gebied (in kleine letters, case-sensitive) hebben. - Gegevens is een vereist gebied wanneer het gebruiken van action=update: JSON de updateacties moeten a
"data"gebied omvatten. - Gegevens is een vereist gebied wanneer het gebruiken van action=delete-field: JSON schrap-gebied acties moet specificeren welke gebieden op het
"data"gebied te schrappen. - Gegevens moeten niet aanwezig zijn wanneer het gebruiken van action=delete-key: JSON schrapt-zeer belangrijke acties kunnen a
"data"gebied niet omvatten. - niet gestaafde het coderen: Gebruik slechts gesteunde het coderen waarden op het
"enc"gebied (utf8,UTF8,latin1,LATIN1). - Ongeldige JSON syntaxis: Zorg ervoor dat het JSON dossier correct na overeenkomsten JSONL wordt geformatteerd. Controleer ook op algemene JSON-opmaak, ontbrekende aanhalingstekens, komma's, vierkante haken, enzovoort.
Fouten in groottebeperking
- Sleutel overschrijdt maximumgrootte: De individuele sleutels kunnen 255 bytes niet overschrijden.
- de waarde van de Kolom overschrijdt maximumgrootte: De individuele classificatiewaarden kunnen 255 bytes niet overschrijden.
Best practices
- grootte van het Dossier: 50MB is de maximumdossiergrootte voor browser en API uploads.
- verwerking van de Partij: Voor grote datasets, overweeg het verdelen in kleinere dossiers.
- bevestiging van Gegevens: Test met een klein steekproefdossier alvorens grote datasets te uploaden.
- Steun: Houd exemplaren van uw brongegevensdossiers.
- Incrementele updates: Gebruik formaat JSON voor nauwkeurige controle over individuele verslagupdates en schrappingen.