Een gegevensstroom configureren om batchgegevens van een bron voor cloudopslag in de gebruikersinterface in te voeren
Deze zelfstudie bevat stappen voor het configureren van een gegevensstroom om batchgegevens van uw bron voor cloudopslag over te brengen naar Adobe Experience Platform.
Aan de slag
Deze zelfstudie vereist een goed begrip van de volgende onderdelen van het Experience Platform:
-
Experience Data Model (XDM) Systeem: Het gestandaardiseerde kader waardoor het Experience Platform gegevens van de klantenervaring organiseert.
- Grondbeginselen van schemacompositie: Leer over de basisbouwstenen van schema's XDM, met inbegrip van zeer belangrijke principes en beste praktijken in schemacompositie.
- het leerprogramma van de Redacteur van het Schema: Leer hoe te om douaneschema's tot stand te brengen gebruikend de Redacteur UI van het Schema.
-
Real-Time Customer Profile: biedt een uniform, real-time consumentenprofiel dat is gebaseerd op geaggregeerde gegevens van meerdere bronnen.
Ondersteunde bestandsindelingen
Cloudopslagbronnen voor batchgegevens ondersteunen de volgende bestandsindelingen voor inname:
- DSV (Delimiter-separated-separated values, gescheiden waarden): elke waarde van één teken kan worden gebruikt als scheidingsteken voor gegevensbestanden met DSV-indeling.
- JavaScript Object Notation (JSON): gegevensbestanden met JSON-indeling moeten XDM-compatibel zijn.
- Apache Parquet: gegevensbestanden met Parketindeling moeten XDM-compatibel zijn.
- Gecomprimeerde bestanden: JSON- en gescheiden bestanden kunnen worden gecomprimeerd als:
bzip2
,gzip
,deflate
,zipDeflate
,tarGzip
entar
.
Gegevens toevoegen
Nadat u uw account voor cloudopslag hebt gemaakt, wordt de stap Add data weergegeven. Deze stap bevat een interface waarmee u de hiërarchie van uw cloudopslagbestanden kunt verkennen en de map of het specifieke bestand kunt selecteren die u naar het platform wilt verzenden.
- Het linkergedeelte van de interface is een mappenbrowser waarin de hiërarchie van de bestanden voor cloudopslag wordt weergegeven.
- In het rechtergedeelte van de interface kunt u maximaal 100 rijen gegevens uit een compatibele map of bestand voorvertonen.
Selecteer de hoofdmap voor toegang tot de mappenhiërarchie. Van hieruit kunt u één map selecteren om alle bestanden in de map recursief in te voeren. Wanneer u een volledige map opgeeft, moet u ervoor zorgen dat alle bestanden in die map dezelfde gegevensindeling en hetzelfde schema hebben.
Nadat u een map hebt geselecteerd, wordt de juiste interface bijgewerkt met een voorvertoning van de inhoud en structuur van het eerste bestand in de geselecteerde map.
Tijdens deze stap kunt u verschillende configuraties aan uw gegevens toevoegen voordat u verdergaat. Selecteer eerst Data format en selecteer vervolgens de juiste gegevensindeling voor het bestand in het vervolgkeuzemenu dat wordt weergegeven.
In de volgende tabel worden de juiste gegevensindelingen voor de ondersteunde bestandstypen weergegeven:
Een kolomscheidingsteken selecteren
Nadat u de gegevensindeling hebt geconfigureerd, kunt u een kolomscheidingsteken instellen bij het invoegen van gescheiden bestanden. Selecteer de optie Delimiter en selecteer vervolgens een scheidingsteken in het vervolgkeuzemenu. Het menu toont de vaakst gebruikte opties voor afbakeningen, met inbegrip van een komma (,
), een lusje (\t
), en een pijp (|
).
Als u liever een aangepast scheidingsteken gebruikt, selecteert u Custom en voert u in de pop-upinvoerbalk een scheidingsteken voor één teken in.
Gecomprimeerde bestanden samenvoegen
U kunt ook gecomprimeerde JSON- of gescheiden bestanden opnemen door het compressietype ervan op te geven.
Selecteer in de stap Select data een gecomprimeerd bestand voor inname en selecteer vervolgens het juiste bestandstype en of het al dan niet compatibel is met XDM. Selecteer vervolgens Compression type en selecteer het juiste gecomprimeerde bestandstype voor de brongegevens.
Als u een specifiek bestand wilt overbrengen naar Platform, selecteert u een map en selecteert u vervolgens het bestand dat u wilt opnemen. Tijdens deze stap kunt u ook een voorbeeld van de bestandsinhoud van andere bestanden in een bepaalde map bekijken met het voorvertoningspictogram naast een bestandsnaam.
Selecteer Next als u klaar bent.
Gegevens over gegevensstroom opgeven
Met de pagina Dataflow detail kunt u selecteren of u een bestaande gegevensset of een nieuwe gegevensset wilt gebruiken. Tijdens dit proces kunt u ook de gegevens configureren die u in het profiel wilt opnemen en instellingen als Error diagnostics , Partial ingestion en Alerts inschakelen.
Een bestaande gegevensset gebruiken
Selecteer Existing dataset als u gegevens in een bestaande gegevensset wilt opnemen. U kunt of een bestaande dataset terugwinnen gebruikend de Advanced search optie of door door de lijst van bestaande datasets in het dropdown menu te scrollen. Zodra u een dataset hebt geselecteerd, verstrek een naam en een beschrijving voor uw gegevensstroom.
Een nieuwe gegevensset gebruiken
Om in een nieuwe dataset in te gaan, selecteer New dataset en verstrek dan een naam van de outputdataset en een facultatieve beschrijving. Selecteer vervolgens het schema dat u wilt toewijzen met de optie Advanced search of door door de lijst met bestaande schema's in het vervolgkeuzemenu te bladeren. Nadat u een schema hebt geselecteerd, geeft u een naam en een beschrijving voor de gegevensstroom op.
Profiel- en foutdiagnostiek inschakelen
Selecteer vervolgens de schakeloptie Profile dataset om de gegevensset in te schakelen voor Profiel. Hierdoor kunt u een holistische weergave maken van de kenmerken en het gedrag van een entiteit. De gegevens van alle profiel-toegelaten datasets zullen in Profiel worden omvat en de veranderingen worden toegepast wanneer u sparen uw gegevensstroom.
In Error diagnostics kunnen gedetailleerde foutberichten worden gegenereerd voor onjuiste records in de gegevensstroom, terwijl u in Partial ingestion gegevens met fouten kunt invoeren tot een bepaalde drempel die u handmatig definieert. Zie het gedeeltelijke overzicht van partijingestievoor meer informatie.
Waarschuwingen inschakelen
U kunt waarschuwingen inschakelen om meldingen te ontvangen over de status van uw gegevensstroom. Selecteer een waarschuwing in de lijst om u te abonneren op meldingen over de status van uw gegevensstroom. Voor meer informatie over alarm, zie de gids bij het intekenen aan bronalarm gebruikend UI.
Wanneer u klaar bent met het opgeven van details voor de gegevensstroom, selecteert u Next .
Gegevensvelden toewijzen aan een XDM-schema
De stap Mapping verschijnt, die u van een interface voorziet om de brongebieden van uw bronschema aan hun aangewezen doelXDM gebieden in het doelschema in kaart te brengen.
Platform biedt intelligente aanbevelingen voor automatisch toegewezen velden op basis van het doelschema of de gegevensset die u hebt geselecteerd. U kunt toewijzingsregels handmatig aanpassen aan uw gebruiksgevallen. Op basis van uw behoeften kunt u ervoor kiezen om velden rechtstreeks toe te wijzen of gegevens prep-functies te gebruiken om brongegevens om berekende of berekende waarden af te leiden. Voor uitvoerige stappen bij het gebruiken van de kaartperinterface en berekende gebieden, zie de gids UI van de Prep van Gegevens.
Selecteer Next wanneer de brongegevens correct zijn toegewezen.
Planninguitvoering
De stap Scheduling verschijnt, die u toestaat om een innameprogramma te vormen om de geselecteerde brongegevens automatisch in te nemen gebruikend de gevormde afbeeldingen. De planning wordt standaard ingesteld op Once
. Als u de innamefrequentie wilt aanpassen, selecteert u Frequency en vervolgens een optie in het vervolgkeuzemenu.
Als u de innamefrequentie instelt op Minute
, Hour
, Day
of Week
, moet u een interval instellen om een bepaald tijdkader tussen elke inname te maken. Als de innamefrequentie bijvoorbeeld is ingesteld op Day
en als het interval is ingesteld op 15
, worden gegevens elke 15 dagen opgenomen.
Tijdens deze stap, kunt u backfill ook toelaten en een kolom voor de stijgende opname van gegevens bepalen. Backfill wordt gebruikt om historische gegevens in te voeren, terwijl in de kolom die u voor incrementele inname definieert, nieuwe gegevens kunnen worden onderscheiden van bestaande gegevens.
Zie de lijst hieronder voor meer informatie over het plannen van configuraties.
Vorm frequentie om erop te wijzen hoe vaak dataflow zou moeten lopen. U kunt de frequentie instellen op:
- Eenmaal: Plaats uw frequentie aan
once
om eenmalig te creëren. Configuraties voor interval en backfill zijn niet beschikbaar wanneer u een eenmalige gegevensstroom maakt. Standaard wordt de planningsfrequentie ingesteld op één keer. - Minuut: Plaats uw frequentie aan
minute
om uw gegevensstroom te plannen om gegevens op een per-minieme basis in te voeren. - Uur: Plaats uw frequentie aan
hour
om uw gegevensstroom te plannen om gegevens op een per-uurbasis in te voeren. - Dag: Plaats uw frequentie aan
day
om uw gegevensstroom te plannen om gegevens op een per-dagbasis in te voeren. - Week: Plaats uw frequentie aan
week
om uw gegevensstroom te plannen om gegevens op een per-weekbasis in te voeren.
Zodra u een frequentie selecteert, kunt u het interval dat dan vormen om het tijdkader tussen elke opname te vestigen. Bijvoorbeeld, als u uw frequentie aan dag plaatst en het interval aan 15 vormt, dan zal uw dataflow om de 15 dagen lopen. U kunt het interval niet instellen op nul. De minimaal toegestane intervalwaarde voor elke frequentie is als volgt:
- Eenmaal: n/a
- Minuut: 15
- Uur: 1
- Dag: 1
- Week: 1
Selecteer Next wanneer u klaar bent met het configureren van uw innameschema.
Controleer uw gegevensstroom
De stap Review wordt weergegeven, zodat u de nieuwe gegevensstroom kunt bekijken voordat deze wordt gemaakt. De details worden gegroepeerd in de volgende categorieën:
- Connection: geeft het brontype, het relevante pad van het gekozen bronbestand en de hoeveelheid kolommen in dat bronbestand weer.
- Assign dataset & map fields: Toont welke dataset de brongegevens worden opgenomen in, met inbegrip van het schema dat de dataset volgt aan.
- Scheduling: geeft de actieve periode, frequentie en interval van het innameschema weer.
Nadat u de gegevensstroom hebt gereviseerd, klikt u op Finish en laat u enige tijd over tot de gegevensstroom.
Volgende stappen
Door deze zelfstudie te volgen, hebt u met succes een dataflow gemaakt om gegevens van een externe wolkenopslag in te brengen, en hebt u inzicht gekregen in de controle van datasets. Als u meer wilt weten over het maken van gegevensstromen, kunt u uw studie aanvullen door de onderstaande video te bekijken. Bovendien kunnen binnenkomende gegevens nu worden gebruikt door Platform -services, zoals Real-Time Customer Profile en Data Science Workspace . Raadpleeg de volgende documenten voor meer informatie:
Bijlage
De volgende secties verstrekken extra informatie voor het werken met bronschakelaars.
Uw gegevensstroom controleren
Zodra uw gegevensstroom is gecreeerd, kunt u de gegevens controleren die door het worden opgenomen om informatie over innamesnelheden, succes, en fouten te bekijken. Voor meer informatie over hoe te om dataflow te controleren, bezoek het leerprogramma op controlerekeningen en dataflows in UI.
Uw gegevensstroom bijwerken
Om configuraties voor uw dataflows bij te werken die, afbeelding, en algemene informatie plannen, bezoek het leerprogramma op bijwerken brondataflows in UI.
Uw gegevensstroom verwijderen
U kunt gegevensstromen verwijderen die niet meer nodig zijn of die onjuist zijn gemaakt met de functie Delete die beschikbaar is in de Dataflows -werkruimte. Voor meer informatie over hoe te om dataflows te schrappen, bezoek het leerprogramma bij het schrappen van dataflows in UI.