Query-service (Data Distiller) en exportgegevenssets
In dit artikel wordt beschreven hoe de combinatie van Experience Platform Query Service (Data Distiller) en Dataset-export kan worden gebruikt om het volgende te implementeren Gebruiksscenario's voor exporteren van gegevens:
- Gegevensvalidatie
- Data Lake, Data Warehouse van BI-gereedschappen
- Gereedheid voor kunstmatig slim en machinaal leren.
Adobe Analytics kan deze gebruiksgevallen implementeren met behulp van zijn Gegevensfeeds functionaliteit. Gegevensfeeds zijn een krachtige manier om onbewerkte gegevens uit Adobe Analytics te halen. In dit artikel wordt beschreven hoe u vergelijkbare onbewerkte gegevens uit Experience Platform kunt ophalen, zodat u de hierboven vermelde gebruiksgevallen kunt implementeren. Indien van toepassing worden de in dit artikel beschreven functies vergeleken met Adobe Analytics Data Feeds om verschillen in gegevens en processen te verduidelijken.
Inleiding
Het uitvoeren van gegevens gebruikend de Dienst van de Vraag (Gegevens Distiller) en de uitvoer van Dataset bestaat uit:
- een geplande query dat de gegevens voor uw gegevensvoer als outputdataset produceert
- een geplande gegevensset exporteren dat de outputdataset naar een bestemming van de wolkenopslag uitvoert, gebruikend Dataset exporteren.
Vereisten
Zorg ervoor dat u aan alle volgende vereisten voldoet voordat u de functionaliteit gebruikt die in dit gebruiksgeval wordt beschreven:
- Een werkende implementatie die gegevens verzamelt in het gegevensmeer van het Experience Platform.
- Toegang tot de gegevensinvoegtoepassing Distiller om te controleren of u batch-query's mag uitvoeren. Zie Query Service verpakken voor meer informatie .
- Toegang tot de functionaliteit voor het exporteren van gegevenssets die beschikbaar is wanneer u het Real-Time CDP-pakket Premier of Ultimate, Adobe Journey Optimizer of Customer Journey Analytics hebt aangeschaft. Zie Gegevenssets exporteren naar cloudopslagbestemmingen voor meer informatie .
- Een of meer geconfigureerde doelen (bijvoorbeeld Amazon S3, Google Cloud Storage) waarnaar u de onbewerkte gegevens van uw gegevensfeed kunt exporteren.
Query-service
De Dienst van de Vraag van het Experience Platform staat u toe om het even welke dataset in het meer van de gegevens van het Experience Platform te vragen en zich aan te sluiten alsof het een gegevensbestandlijst is. Vervolgens kunt u de resultaten vastleggen als een nieuwe gegevensset voor verder gebruik in rapportage of voor export.
U kunt de Query-service gebruiken gebruikersinterface, client verbonden via het PostQL-protocol, of RESTful-API's om vragen tot stand te brengen en te plannen die de gegevens voor uw gegevensvoer verzamelen.
Query maken
U kunt alle functionaliteit van standaardANSI SQL voor UITGEZOCHTE verklaringen en andere beperkte bevelen gebruiken om vragen tot stand te brengen en uit te voeren die de gegevens voor uw gegevensvoer produceren. Zie SQL-syntaxis voor meer informatie . Buiten deze SQL-syntaxis ondersteunt Adobe:
- voorgebouwd Adobe-bepaalde functies (ADF) die helpen gemeenschappelijke zaken-gerelateerde taken op gebeurtenisgegevens uitvoeren die in het Experience Platform gegevensmeer worden opgeslagen, met inbegrip van functies voor Sessionering en Attributie,
- meerdere ingebouwde SQL-functies in Spark,
- Metagegevens, PostgreSQL-opdrachten,
- voorbereide instructies.
Gegevensvoederkolommen
De XDM gebieden die u in uw vraag kunt gebruiken hangen van de schemadefinitie af waarop uw datasets worden gebaseerd. Zorg ervoor u het schema onderaan de dataset begrijpt. Zie voor meer informatie de UI-gids voor gegevensbestanden.
Om u te helpen om de afbeelding tussen de kolommen van de Invoer van Gegevens en de gebieden te bepalen XDM, zie Toewijzing van het veld Analytics. Zie ook de Overzicht van de interface Schemas voor meer informatie over hoe te om middelen XDM, met inbegrip van schema's, klassen, gebiedsgroepen, en gegevenstypes te beheren.
Als u bijvoorbeeld paginanaam als onderdeel van de gegevensinvoer:
- In de gebruikersinterface van Adobe Analytics Data Feed selecteert u pagename als de kolom die moet worden toegevoegd aan de definitie van de gegevensinvoer.
- In de Dienst van de Vraag, omvat u
web.webPageDetails.name
van desample_event_dataset_for_website_global_v1_1
dataset (gebaseerd op de Voorbeeld van gebeurtenisschema voor website (Global v1.1) ervaringsgebeurtenisschema) in uw query. Zie de Web Details schema-veldgroep voor meer informatie .
Identiteiten
In Experience Platform zijn verschillende identiteiten beschikbaar. Zorg er bij het maken van query's voor dat u de id's correct opvraagt.
Vaak vindt u identiteiten in een afzonderlijke veldgroep. In een implementatie ECID (ecid
) kan worden gedefinieerd als onderdeel van een veldgroep met een core
object, dat zelf deel uitmaakt van een identification
object (bijvoorbeeld: _sampleorg.identification.core.ecid
). De ECIDs zou verschillend in uw schema's kunnen worden georganiseerd.
U kunt ook identityMap
om naar identiteiten te zoeken. De identityMap
is van type Map
en gebruikt een geneste gegevensstructuur.
Zie Identiteitsvelden definiëren in de gebruikersinterface voor meer informatie over het definiëren van identiteitsvelden in Experience Platform.
Zie Primaire id-id's in analysegegevens voor meer informatie over de manier waarop Adobe Analytics-identiteiten worden toegewezen aan Experience Platform-id's wanneer de bronconnector Analytics wordt gebruikt. Deze toewijzing kan als richtlijn voor vestiging uw identiteiten dienen, zelfs wanneer het gebruiken van niet de analytische bronschakelaar.
Gegevens en identificatie op bedrijfsniveau
Op basis van de implementatie worden gegevens op raakniveau die traditioneel in Adobe Analytics worden verzameld, nu opgeslagen als tijdstempelgegevens voor gebeurtenissen in Experience Platform. De volgende tabel wordt geëxtraheerd uit Toewijzing van het veld Analytics en toont voorbeelden hoe te om niveau-specifieke kolommen van de Invoer van Gegevens van Adobe Analytics met overeenkomstige XDM gebieden in uw vragen in kaart te brengen. De tabel bevat ook voorbeelden van hoe treffers, bezoeken en bezoekers worden geïdentificeerd met behulp van XDM-velden.
hitid_high
+ hitid_low
_id
hitid_low
_id
hitid_high
om een treffer uniek te identificeren.hitid_high
_id
hitid_high
om een treffer uniek te identificeren.hit_time_gmt
receivedTimestamp
cust_hit_time_gmt
timestamp
visid_high
+ visid_low
identityMap
visid_high
+ visid_low
endUserIDs._experience.aaid.id
visid_high
endUserIDs._experience.aaid.primary
visid_low
om een bezoek op unieke wijze te identificeren.visid_high
endUserIDs._experience.aaid.namespace.code
visid_low
om een bezoek op unieke wijze te identificeren.visid_low
identityMap
visid_high
om een bezoek op unieke wijze te identificeren.cust_visid
identityMap
cust_visid
endUserIDs._experience.aacustomid.id
cust_visid
endUserIDs._experience.aacustomid.primary
cust_visid
endUserIDs._experience.aacustomid.namespace.code
visid_low
om de bezoekersidentiteitskaart van de klant uniek te identificeren.geo\_*
placeContext.geo.*
event_list
commerce.purchases
, commerce.productViews
, commerce.productListOpens
, commerce.checkouts
, commerce.productListAdds
, commerce.productListRemovals
, commerce.productListViews
, _experience.analytics.event101to200.*
, … _experience.analytics.event901_1000.*
page_event
web.webInteraction.type
page_event
web.webInteraction.linkClicks.value
page_event_var_1
web.webInteraction.URL
page_event_var_2
web.webInteraction.name
paid_search
search.isPaid
ref_type
web.webReferrertype
Kolommen na
Adobe Analytics Data Feeds gebruikt het concept kolommen met een post_
prefix, die kolommen zijn die gegevens bevatten na verwerking. Zie Veelgestelde vragen over gegevensfeeds voor meer informatie .
Gegevens die in datasets door de Edge Network van het Experience Platform (Web SDK, Mobiele SDK, Server API) worden verzameld hebben geen concept post_
velden. Dientengevolge, post_
vooraf en non-post_
vooraf ingestelde kolommen voor gegevensinvoer worden toegewezen aan dezelfde XDM-velden. Bijvoorbeeld beide page_url
en post_page_url
gegevensvoederkolommen worden toegewezen aan hetzelfde web.webPageDetails.URL
XDM-veld.
Zie Gegevensverwerking in Adobe Analytics en Customer Journey Analytics vergelijken voor een overzicht van het verschil in gegevensverwerking.
De post_
het type van prefixkolom van gegevens, wanneer verzameld in het de gegevensmeertje van het Experience Platform, vereist echter geavanceerde transformaties alvorens het met succes in een het inputgebruik van gegevens kan worden gebruikt. Het uitvoeren van deze geavanceerde transformaties in uw vragen impliceert het gebruik van Adobe-gedefinieerde functies voor sessionisatie, attributie en deduplicatie. Zie Voorbeelden over het gebruik van deze functies.
Zoeken
Om gegevens van andere datasets op te zoeken, gebruikt u standaard SQL functionaliteit (WHERE
clausule, INNER JOIN
, OUTER JOIN
, en andere).
Berekeningen
Gebruik de standaard SQL-functies (bijvoorbeeld COUNT(*)
) of de wiskunde en statistische diensten onderdeel van Spark SQL. Ook, vensterfuncties bieden ondersteuning voor het bijwerken van aggregaties en het retourneren van afzonderlijke items voor elke rij in een geordende subset. Zie Voorbeelden over het gebruik van deze functies.
Geneste gegevensstructuur
De schema's waarop de datasets worden gebaseerd bevatten vaak complexe gegevenstypen, met inbegrip van geneste gegevensstructuren. Eerder genoemd identityMap
Dit is een voorbeeld van een geneste gegevensstructuur. Zie hieronder voor een voorbeeld van identityMap
gegevens.
{
"identityMap":{
"FPID":[
{
"id":"55613368189701342632255821452918751312",
"authenticatedState":"ambiguous"
}
],
"CRM":[
{
"id":"2394509340-30453470347",
"authenticatedState":"authenticated"
}
]
}
}
U kunt de explode()
of andere Arrays van SQL van de Vonk om aan de gegevens binnen een genestelde gegevensstructuur, bijvoorbeeld te krijgen:
select explode(identityMap) from demosys_cja_ee_v1_website_global_v1_1 limit 15;
U kunt ook naar afzonderlijke elementen verwijzen met puntnotatie. Bijvoorbeeld:
select identityMap.ecid from demosys_cja_ee_v1_website_global_v1_1 limit 15;
Zie Werken met geneste gegevensstructuren in Query Service voor meer informatie .
Voorbeelden
Voor vragen:
- die gegevens uit gegevensreeksen in het gegevensmeer van de Experience Platform gebruiken,
- tikken op de extra mogelijkheden van Adobe bepaalde Functies en/of SQL van de Vonk, en
- die vergelijkbare resultaten zouden opleveren als een gelijkwaardige Adobe Analytics-gegevenstoevoer,
zie:
Zoekopdracht plannen
U plant de vraag om ervoor te zorgen dat de vraag wordt uitgevoerd en dat de resultaten bij uw aangewezen interval worden geproduceerd.
Query-editor gebruiken
U kunt een vraag plannen gebruikend de Redacteur van de Vraag. Wanneer het plannen van de vraag, bepaalt u een outputdataset. Zie Zoekprogramma's voor meer informatie .
API voor Query Service gebruiken
Alternatief kunt u RESTful APIs gebruiken om een vraag en een programma voor de vraag te bepalen. Zie de API-handleiding voor query-service voor meer informatie .
Zorg ervoor dat u de uitvoergegevensset definieert als onderdeel van de optionele ctasParameters
eigenschap bij het maken van de query (Een query maken) of wanneer het creëren van het programma voor een vraag (Een geplande query maken).
Gegevensbestanden exporteren
Zodra u hebt gecreeerd en uw vraag gepland, en de resultaten geverifieerd, kunt u de ruwe datasets aan de bestemmingen van de wolkenopslag dan uitvoeren. Deze uitvoer is in de terminologie van de Doelen van de Experience Platform die als de uitvoerbestemmingen van de Dataset wordt bedoeld. Zie Gegevenssets exporteren naar cloudopslagbestemmingen voor een overzicht.
De volgende bestemmingen voor cloudopslag worden ondersteund:
UI EXPERIENCE PLATFORM
U kunt de uitvoer van uw outputdatasets door het Experience Platform UI uitvoeren en plannen. In dit gedeelte worden de desbetreffende stappen beschreven.
Doel selecteren
Wanneer u hebt bepaald naar welke bestemming van de wolkenopslag u de outputdataset wilt uitvoeren, selecteer het doel. Als u nog geen bestemming voor uw voorkeurscloudopslag hebt geconfigureerd, moet u een nieuwe doelverbinding maken.
Als deel van het vormen van een bestemming, kunt u
- het bestandstype (JSON of Parquet) definiëren;
- of het resulterende bestand al dan niet moet worden gecomprimeerd, en
- of een manifestbestand al dan niet moet worden opgenomen.
Gegevensset selecteren
Wanneer u het doel hebt geselecteerd, gaat u in de volgende Select datasets stap u uw outputdataset van de lijst van datasets moet selecteren. Als u veelvoudige geplande vragen hebt tot stand gebracht, en u de outputdatasets naar de zelfde bestemming van de wolkenopslag wilt verzenden, kunt u de overeenkomstige outputdatasets selecteren. Zie Uw gegevenssets selecteren voor meer informatie .
Gegevensexport voor schema
Tot slot wilt u uw datasetuitvoer als deel van plannen Scheduling stap. In die stap kunt u het programma bepalen en of de uitvoer van de outputdataset incrementeel of niet zou moeten zijn. Zie Gegevensexport voor schema voor meer informatie .
Slotstappen
Controleren als u de gegevens hebt geselecteerd en als u dit hebt gedaan, exporteert u de uitvoergegevensset naar de opslaglocatie van de cloud.
U moet verifiëren een geslaagde gegevensexport. Bij het exporteren van gegevenssets maakt Experience Platform een of meerdere .json
of .parquet
bestanden op de opslaglocatie die in de bestemming is gedefinieerd. Nieuwe bestanden worden naar verwachting op uw opslaglocatie gedeponeerd volgens het exportschema dat u instelt. Experience Platform maakt een mapstructuur op de opslaglocatie die u hebt opgegeven als onderdeel van de geselecteerde bestemming, waar de geëxporteerde bestanden worden opgeslagen. Voor elke exporttijd wordt een nieuwe map gemaakt volgens het patroon: folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM
. De standaardbestandsnaam wordt willekeurig gegenereerd en zorgt ervoor dat geëxporteerde bestandsnamen uniek zijn.
Flow Service-API
Alternatief, kunt u de uitvoer van outputdatasets uitvoeren en plannen gebruikend APIs. De betrokken stappen worden beschreven in De datasets van de uitvoer door de Dienst API van de Stroom te gebruiken.
Aan de slag
Om datasets uit te voeren, zorg ervoor u hebt vereiste machtigingen. Verifieer ook dat de bestemming waarnaar u uw outputdataset wilt verzenden het uitvoeren van datasets steunt. U moet verzamel de waarden voor vereiste en optionele kopteksten die u gebruikt in de API-aanroepen. U moet ook identificeer de verbindingsspecificaties en stroom specificeer IDs van de bestemming u bent van plan datasets naar uit te voeren.
In aanmerking komende gegevenssets ophalen
U kunt een lijst met in aanmerking komende gegevenssets ophalen voor de uitvoer en verifieer of uw outputdataset deel van die lijst uitmaakt gebruikend GET /connectionSpecs/{id}/configs
API.
Bronverbinding maken
Volgende moet u een bronverbinding maken voor de outputdataset, gebruikend zijn unieke identiteitskaart, die u naar de bestemming van de wolkenopslag wilt uitvoeren. U gebruikt de POST /sourceConnections
API.
Verifiëren voor bestemming (basisverbinding maken)
U moet nu een basisverbinding maken om de gegevens te verifiëren en veilig op te slaan naar de bestemming van de cloudopslag met de POST /targetConection
API.
Exportparameters opgeven
Vervolgens moet u een extra doelverbinding maken waarmee de exportparameters worden opgeslagen voor uw outputdataset die, opnieuw gebruikt POST /targetConection
API. Deze exportparameters zijn onder andere locatie, bestandsindeling, compressie en meer.
Gegevensstroom instellen
Tot slot de gegevensstroom instellen om ervoor te zorgen dat uw uitvoergegevensset naar de opslagbestemming van de cloud wordt geëxporteerd met de POST /flows
API. In deze stap kunt u het programma voor het exporteren definiëren met de opdracht scheduleParams
parameter.
Gegevensstroom valideren
Naar controleren succesvolle uitvoeringen van uw gegevensstroom, gebruikt u de GET /runs
API, die dataflow ID als vraagparameter specificeert. Deze gegevensstroom-id is een id die wordt geretourneerd wanneer u de gegevensstroom instelt.
Verifiëren een geslaagde gegevensexport. Bij het exporteren van gegevenssets maakt Experience Platform een of meerdere .json
of .parquet
bestanden op de opslaglocatie die in de bestemming is gedefinieerd. Nieuwe bestanden worden naar verwachting op uw opslaglocatie gedeponeerd volgens het exportschema dat u instelt. Experience Platform maakt een mapstructuur op de opslaglocatie die u hebt opgegeven als onderdeel van de geselecteerde bestemming, waar de geëxporteerde bestanden worden opgeslagen. Voor elke exporttijd wordt een nieuwe map gemaakt volgens het patroon: folder-name-you-provided/datasetID/exportTime=YYYYMMDDHHMM
. De standaardbestandsnaam wordt willekeurig gegenereerd en zorgt ervoor dat geëxporteerde bestandsnamen uniek zijn.
Conclusie
Kortom, het emuleren van de functionaliteit Adobe Analytics Data Feed impliceert het instellen van geplande query's met behulp van Query Service en het gebruik van de resultaten van deze query's in geplande gegevensset-exportbewerkingen.