Query-service (Data Distiller) en exportgegevenssets

In dit artikel wordt beschreven hoe de combinatie van Experience Platform Query Service (Data Distiller) en Dataset-export kan worden gebruikt om het volgende te implementeren Gebruiksscenario's voor exporteren van gegevens:

  • Gegevensvalidatie
  • Data Lake, Data Warehouse van BI-gereedschappen
  • Gereedheid voor kunstmatig slim en machinaal leren.

Adobe Analytics kan deze gebruiksgevallen implementeren met behulp van zijn Gegevensfeeds functionaliteit. Gegevensfeeds zijn een krachtige manier om onbewerkte gegevens uit Adobe Analytics te halen. In dit artikel wordt beschreven hoe u vergelijkbare onbewerkte gegevens uit Experience Platform kunt ophalen, zodat u de hierboven vermelde gebruiksgevallen kunt implementeren. Indien van toepassing worden de in dit artikel beschreven functies vergeleken met Adobe Analytics Data Feeds om verschillen in gegevens en processen te verduidelijken.

Inleiding

Het uitvoeren van gegevens gebruikend de Dienst van de Vraag (Gegevens Distiller) en de uitvoer van Dataset bestaat uit:

  • een geplande query dat de gegevens voor uw gegevensvoer als outputdataset produceert uitvoergegevensset , gebruiken Query-service.
  • een geplande gegevensset exporteren dat de outputdataset naar een bestemming van de wolkenopslag uitvoert, gebruikend Dataset exporteren.

Gegevensfeed

Vereisten

Zorg ervoor dat u aan alle volgende vereisten voldoet voordat u de functionaliteit gebruikt die in dit gebruiksgeval wordt beschreven:

  • Een werkende implementatie die gegevens verzamelt in het gegevensmeer van het Experience Platform.
  • Toegang tot de gegevensinvoegtoepassing Distiller om te controleren of u batch-query's mag uitvoeren. Zie Query Service verpakken voor meer informatie .
  • Toegang tot de functionaliteit voor het exporteren van gegevenssets die beschikbaar is wanneer u het Real-Time CDP-pakket Premier of Ultimate, Adobe Journey Optimizer of Customer Journey Analytics hebt aangeschaft. Zie Gegevenssets exporteren naar cloudopslagbestemmingen voor meer informatie .
  • Een of meer geconfigureerde doelen (bijvoorbeeld Amazon S3, Google Cloud Storage) waarnaar u de onbewerkte gegevens van uw gegevensfeed kunt exporteren.

Query-service

De Dienst van de Vraag van het Experience Platform staat u toe om het even welke dataset in het meer van de gegevens van het Experience Platform te vragen en zich aan te sluiten alsof het een gegevensbestandlijst is. Vervolgens kunt u de resultaten vastleggen als een nieuwe gegevensset voor verder gebruik in rapportage of voor export.

U kunt de Query-service gebruiken gebruikersinterface, client verbonden via het PostQL-protocol, of RESTful-API's om vragen tot stand te brengen en te plannen die de gegevens voor uw gegevensvoer verzamelen.

Query maken

U kunt alle functionaliteit van standaardANSI SQL voor UITGEZOCHTE verklaringen en andere beperkte bevelen gebruiken om vragen tot stand te brengen en uit te voeren die de gegevens voor uw gegevensvoer produceren. Zie SQL-syntaxis voor meer informatie . Buiten deze SQL-syntaxis ondersteunt Adobe:

Gegevensvoederkolommen

De XDM gebieden die u in uw vraag kunt gebruiken hangen van de schemadefinitie af waarop uw datasets worden gebaseerd. Zorg ervoor u het schema onderaan de dataset begrijpt. Zie voor meer informatie de UI-gids voor gegevensbestanden.

Om u te helpen om de afbeelding tussen de kolommen van de Invoer van Gegevens en de gebieden te bepalen XDM, zie Toewijzing van het veld Analytics. Zie ook de Overzicht van de interface Schemas voor meer informatie over hoe te om middelen XDM, met inbegrip van schema's, klassen, gebiedsgroepen, en gegevenstypes te beheren.

Als u bijvoorbeeld paginanaam als onderdeel van de gegevensinvoer:

  • In de gebruikersinterface van Adobe Analytics Data Feed selecteert u pagename als de kolom die moet worden toegevoegd aan de definitie van de gegevensinvoer.
  • In de Dienst van de Vraag, omvat u web.webPageDetails.name van de sample_event_dataset_for_website_global_v1_1 dataset (gebaseerd op de Voorbeeld van gebeurtenisschema voor website (Global v1.1) ervaringsgebeurtenisschema) in uw query. Zie de Web Details schema-veldgroep voor meer informatie .

Identiteiten

In Experience Platform zijn verschillende identiteiten beschikbaar. Zorg er bij het maken van query's voor dat u de id's correct opvraagt.

Vaak vindt u identiteiten in een afzonderlijke veldgroep. In een implementatie ECID (ecid) kan worden gedefinieerd als onderdeel van een veldgroep met een core object, dat zelf deel uitmaakt van een identification object (bijvoorbeeld: _sampleorg.identification.core.ecid). De ECIDs zou verschillend in uw schema's kunnen worden georganiseerd.

U kunt ook identityMap om naar identiteiten te zoeken. De identityMap is van type Map en gebruikt een geneste gegevensstructuur.

Zie Identiteitsvelden definiëren in de gebruikersinterface voor meer informatie over het definiëren van identiteitsvelden in Experience Platform.

Zie Primaire id-id's in analysegegevens voor meer informatie over de manier waarop Adobe Analytics-identiteiten worden toegewezen aan Experience Platform-id's wanneer de bronconnector Analytics wordt gebruikt. Deze toewijzing kan als richtlijn voor vestiging uw identiteiten dienen, zelfs wanneer het gebruiken van niet de analytische bronschakelaar.

Gegevens en identificatie op bedrijfsniveau

Op basis van de implementatie worden gegevens op raakniveau die traditioneel in Adobe Analytics worden verzameld, nu opgeslagen als tijdstempelgegevens voor gebeurtenissen in Experience Platform. De volgende tabel wordt geëxtraheerd uit Toewijzing van het veld Analytics en toont voorbeelden hoe te om niveau-specifieke kolommen van de Invoer van Gegevens van Adobe Analytics met overeenkomstige XDM gebieden in uw vragen in kaart te brengen. De tabel bevat ook voorbeelden van hoe treffers, bezoeken en bezoekers worden geïdentificeerd met behulp van XDM-velden.

Kolom Gegevensfeed
XDM-veld
Type
Beschrijving
hitid_high + hitid_low
_id
string
Een unieke id om een treffer te identificeren.
hitid_low
_id
string
Gebruikt met hitid_high om een treffer uniek te identificeren.
hitid_high
_id
string
Gebruikt met hitid_high om een treffer uniek te identificeren.
hit_time_gmt
receivedTimestamp
string
De tijdstempel van de hit, gebaseerd op UNIX®-tijd.
cust_hit_time_gmt
timestamp
string
Dit tijdstempel wordt alleen gebruikt in gegevenssets die geschikt zijn voor tijdstempels. Deze tijdstempel wordt samen met de hit verzonden, op basis van UNIX®-tijd.
visid_high + visid_low
identityMap
object
Een unieke id voor een bezoek.
visid_high + visid_low
endUserIDs._experience.aaid.id
string
Een unieke id voor een bezoek.
visid_high
endUserIDs._experience.aaid.primary
boolean
Gebruikt met visid_low om een bezoek op unieke wijze te identificeren.
visid_high
endUserIDs._experience.aaid.namespace.code
string
Gebruikt met visid_low om een bezoek op unieke wijze te identificeren.
visid_low
identityMap
object
Gebruikt met visid_high om een bezoek op unieke wijze te identificeren.
cust_visid
identityMap
object
De bezoeker-id van de klant.
cust_visid
endUserIDs._experience.aacustomid.id
object
De bezoeker-id van de klant.
cust_visid
endUserIDs._experience.aacustomid.primary
boolean
De naamruimtecode van de bezoeker-id van de klant.
cust_visid
endUserIDs._experience.aacustomid.namespace.code
string
Gebruikt met visid_low om de bezoekersidentiteitskaart van de klant uniek te identificeren.
geo\_*
placeContext.geo.*
tekenreeks, getal
Geolocatiegegevens, zoals land, regio, stad en andere
event_list
commerce.purchases, commerce.productViews, commerce.productListOpens, commerce.checkouts, commerce.productListAdds, commerce.productListRemovals, commerce.productListViews, _experience.analytics.event101to200.*, … _experience.analytics.event901_1000.*
string
Standaard handel en douanegebeurtenissen teweeggebracht op de slag.
page_event
web.webInteraction.type
string
Het type hit dat wordt verzonden in de afbeeldingsaanvraag (klik op Standaard, Koppeling downloaden, Koppeling afsluiten of Aangepaste koppeling).
page_event
web.webInteraction.linkClicks.value
getal
Het type hit dat wordt verzonden in de afbeeldingsaanvraag (klik op Standaard, Koppeling downloaden, Koppeling afsluiten of Aangepaste koppeling).
page_event_var_1
web.webInteraction.URL
string
Een variabele die alleen wordt gebruikt in aanvragen voor het bijhouden van koppelingen. Deze variabele bevat de URL van de downloadkoppeling, de afsluitkoppeling of de aangepaste koppeling waarop is geklikt.
page_event_var_2
web.webInteraction.name
string
Een variabele die alleen wordt gebruikt in aanvragen voor het bijhouden van koppelingen. Hier wordt de aangepaste naam van de koppeling weergegeven, als deze is opgegeven.
paid_search
search.isPaid
boolean
Een vlag die wordt geplaatst als de treffer betaalde onderzoeksopsporing aanpast.
ref_type
web.webReferrertype
string
Een numerieke id die het verwijzingstype voor de treffer vertegenwoordigt.

Kolommen na

Adobe Analytics Data Feeds gebruikt het concept kolommen met een post_ prefix, die kolommen zijn die gegevens bevatten na verwerking. Zie Veelgestelde vragen over gegevensfeeds voor meer informatie .

Gegevens die in datasets door de Edge Network van het Experience Platform (Web SDK, Mobiele SDK, Server API) worden verzameld hebben geen concept post_ velden. Dientengevolge, post_ vooraf en non-post_ vooraf ingestelde kolommen voor gegevensinvoer worden toegewezen aan dezelfde XDM-velden. Bijvoorbeeld beide page_url en post_page_url gegevensvoederkolommen worden toegewezen aan hetzelfde web.webPageDetails.URL XDM-veld.

Zie Gegevensverwerking in Adobe Analytics en Customer Journey Analytics vergelijken voor een overzicht van het verschil in gegevensverwerking.

De post_ het type van prefixkolom van gegevens, wanneer verzameld in het de gegevensmeertje van het Experience Platform, vereist echter geavanceerde transformaties alvorens het met succes in een het inputgebruik van gegevens kan worden gebruikt. Het uitvoeren van deze geavanceerde transformaties in uw vragen impliceert het gebruik van Adobe-gedefinieerde functies voor sessionisatie, attributie en deduplicatie. Zie Voorbeelden over het gebruik van deze functies.

Zoeken

Om gegevens van andere datasets op te zoeken, gebruikt u standaard SQL functionaliteit (WHERE clausule, INNER JOIN, OUTER JOIN, en andere).

Berekeningen

Gebruik de standaard SQL-functies (bijvoorbeeld COUNT(*)) of de wiskunde en statistische diensten onderdeel van Spark SQL. Ook, vensterfuncties bieden ondersteuning voor het bijwerken van aggregaties en het retourneren van afzonderlijke items voor elke rij in een geordende subset. Zie Voorbeelden over het gebruik van deze functies.

Geneste gegevensstructuur

De schema's waarop de datasets worden gebaseerd bevatten vaak complexe gegevenstypen, met inbegrip van geneste gegevensstructuren. Eerder genoemd identityMap Dit is een voorbeeld van een geneste gegevensstructuur. Zie hieronder voor een voorbeeld van identityMap gegevens.

{
   "identityMap":{
      "FPID":[
         {
            "id":"55613368189701342632255821452918751312",
            "authenticatedState":"ambiguous"
         }
      ],
      "CRM":[
         {
            "id":"2394509340-30453470347",
            "authenticatedState":"authenticated"
         }
      ]
   }
}

U kunt de explode() of andere Arrays van SQL van de Vonk om aan de gegevens binnen een genestelde gegevensstructuur, bijvoorbeeld te krijgen:

select explode(identityMap) from demosys_cja_ee_v1_website_global_v1_1 limit 15;

U kunt ook naar afzonderlijke elementen verwijzen met puntnotatie. Bijvoorbeeld:

select identityMap.ecid from demosys_cja_ee_v1_website_global_v1_1 limit 15;

Zie Werken met geneste gegevensstructuren in Query Service voor meer informatie .

Voorbeelden

Voor vragen:

  • die gegevens uit gegevensreeksen in het gegevensmeer van de Experience Platform gebruiken,
  • tikken op de extra mogelijkheden van Adobe bepaalde Functies en/of SQL van de Vonk, en
  • die vergelijkbare resultaten zouden opleveren als een gelijkwaardige Adobe Analytics-gegevenstoevoer,

zie:

Zoekopdracht plannen

U plant de vraag om ervoor te zorgen dat de vraag wordt uitgevoerd en dat de resultaten bij uw aangewezen interval worden geproduceerd.

Query-editor gebruiken

U kunt een vraag plannen gebruikend de Redacteur van de Vraag. Wanneer het plannen van de vraag, bepaalt u een outputdataset. Zie Zoekprogramma's voor meer informatie .

API voor Query Service gebruiken

Alternatief kunt u RESTful APIs gebruiken om een vraag en een programma voor de vraag te bepalen. Zie de API-handleiding voor query-service voor meer informatie .
Zorg ervoor dat u de uitvoergegevensset definieert als onderdeel van de optionele ctasParameters eigenschap bij het maken van de query (Een query maken) of wanneer het creëren van het programma voor een vraag (Een geplande query maken).

Gegevensbestanden exporteren

Zodra u hebt gecreeerd en uw vraag gepland, en de resultaten geverifieerd, kunt u de ruwe datasets aan de bestemmingen van de wolkenopslag dan uitvoeren. Deze uitvoer is in de terminologie van de Doelen van de Experience Platform die als de uitvoerbestemmingen van de Dataset wordt bedoeld. Zie Gegevenssets exporteren naar cloudopslagbestemmingen voor een overzicht.

De volgende bestemmingen voor cloudopslag worden ondersteund:

UI EXPERIENCE PLATFORM

U kunt de uitvoer van uw outputdatasets door het Experience Platform UI uitvoeren en plannen. In dit gedeelte worden de desbetreffende stappen beschreven.

Doel selecteren

Wanneer u hebt bepaald naar welke bestemming van de wolkenopslag u de outputdataset wilt uitvoeren, selecteer het doel. Als u nog geen bestemming voor uw voorkeurscloudopslag hebt geconfigureerd, moet u een nieuwe doelverbinding maken.

Als deel van het vormen van een bestemming, kunt u

  • het bestandstype (JSON of Parquet) definiëren;
  • of het resulterende bestand al dan niet moet worden gecomprimeerd, en
  • of een manifestbestand al dan niet moet worden opgenomen.

Gegevensset selecteren

Wanneer u het doel hebt geselecteerd, gaat u in de volgende Select datasets stap u uw outputdataset van de lijst van datasets moet selecteren. Als u veelvoudige geplande vragen hebt tot stand gebracht, en u de outputdatasets naar de zelfde bestemming van de wolkenopslag wilt verzenden, kunt u de overeenkomstige outputdatasets selecteren. Zie Uw gegevenssets selecteren voor meer informatie .

Gegevensexport voor schema

Tot slot wilt u uw datasetuitvoer als deel van plannen Scheduling stap. In die stap kunt u het programma bepalen en of de uitvoer van de outputdataset incrementeel of niet zou moeten zijn. Zie Gegevensexport voor schema voor meer informatie .

Slotstappen

Controleren als u de gegevens hebt geselecteerd en als u dit hebt gedaan, exporteert u de uitvoergegevensset naar de opslaglocatie van de cloud.

U moet verifiëren een geslaagde gegevensexport. Bij het exporteren van gegevenssets maakt Experience Platform een of meerdere .json of .parquet bestanden op de opslaglocatie die in de bestemming is gedefinieerd. Nieuwe bestanden worden naar verwachting op uw opslaglocatie gedeponeerd volgens het exportschema dat u instelt. Experience Platform maakt een mapstructuur op de opslaglocatie die u hebt opgegeven als onderdeel van de geselecteerde bestemming, waar de geëxporteerde bestanden worden opgeslagen. Voor elke exporttijd wordt een nieuwe map gemaakt volgens het patroon: folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM. De standaardbestandsnaam wordt willekeurig gegenereerd en zorgt ervoor dat geëxporteerde bestandsnamen uniek zijn.

Flow Service-API

Alternatief, kunt u de uitvoer van outputdatasets uitvoeren en plannen gebruikend APIs. De betrokken stappen worden beschreven in De datasets van de uitvoer door de Dienst API van de Stroom te gebruiken.

Aan de slag

Om datasets uit te voeren, zorg ervoor u hebt vereiste machtigingen. Verifieer ook dat de bestemming waarnaar u uw outputdataset wilt verzenden het uitvoeren van datasets steunt. U moet verzamel de waarden voor vereiste en optionele kopteksten die u gebruikt in de API-aanroepen. U moet ook identificeer de verbindingsspecificaties en stroom specificeer IDs van de bestemming u bent van plan datasets naar uit te voeren.

In aanmerking komende gegevenssets ophalen

U kunt een lijst met in aanmerking komende gegevenssets ophalen voor de uitvoer en verifieer of uw outputdataset deel van die lijst uitmaakt gebruikend GET /connectionSpecs/{id}/configs API.

Bronverbinding maken

Volgende moet u een bronverbinding maken voor de outputdataset, gebruikend zijn unieke identiteitskaart, die u naar de bestemming van de wolkenopslag wilt uitvoeren. U gebruikt de POST /sourceConnections API.

Verifiëren voor bestemming (basisverbinding maken)

U moet nu een basisverbinding maken om de gegevens te verifiëren en veilig op te slaan naar de bestemming van de cloudopslag met de POST /targetConection API.

Exportparameters opgeven

Vervolgens moet u een extra doelverbinding maken waarmee de exportparameters worden opgeslagen voor uw outputdataset die, opnieuw gebruikt POST /targetConection API. Deze exportparameters zijn onder andere locatie, bestandsindeling, compressie en meer.

Gegevensstroom instellen

Tot slot de gegevensstroom instellen om ervoor te zorgen dat uw uitvoergegevensset naar de opslagbestemming van de cloud wordt geëxporteerd met de POST /flows API. In deze stap kunt u het programma voor het exporteren definiëren met de opdracht scheduleParams parameter.

Gegevensstroom valideren

Naar controleren succesvolle uitvoeringen van uw gegevensstroom, gebruikt u de GET /runs API, die dataflow ID als vraagparameter specificeert. Deze gegevensstroom-id is een id die wordt geretourneerd wanneer u de gegevensstroom instelt.

Verifiëren een geslaagde gegevensexport. Bij het exporteren van gegevenssets maakt Experience Platform een of meerdere .json of .parquet bestanden op de opslaglocatie die in de bestemming is gedefinieerd. Nieuwe bestanden worden naar verwachting op uw opslaglocatie gedeponeerd volgens het exportschema dat u instelt. Experience Platform maakt een mapstructuur op de opslaglocatie die u hebt opgegeven als onderdeel van de geselecteerde bestemming, waar de geëxporteerde bestanden worden opgeslagen. Voor elke exporttijd wordt een nieuwe map gemaakt volgens het patroon: folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM. De standaardbestandsnaam wordt willekeurig gegenereerd en zorgt ervoor dat geëxporteerde bestandsnamen uniek zijn.

Conclusie

Kortom, het emuleren van de functionaliteit Adobe Analytics Data Feed impliceert het instellen van geplande query's met behulp van Query Service en het gebruik van de resultaten van deze query's in geplande gegevensset-exportbewerkingen.

IMPORTANT
Twee planners zijn betrokken in dit gebruiksgeval. Om een behoorlijk werk van de geëmuleerde functionaliteit van de gegevensvoer te waarborgen, zorg ervoor dat de programma's die in de Dienst van de Vraag en de uitvoer van Gegevens worden gevormd zich niet mengen.
recommendation-more-help
080e5213-7aa2-40d6-9dba-18945e892f79