Exemple de transformations ETL
Cet article présente les exemples de transformations qu’un développeur ETL (extraction, transformation et chargement) peut rencontrer.
Fichier CSV plat vers hiérarchie
Exemples de fichiers
Des exemples de fichiers CSV et JSON sont disponibles à partir du référentiel public de référence ETL GitHub géré par Adobe :
Exemple de fichiers CSV
Les données CRM suivantes ont été exportées sous la forme CRM_profiles.csv
:
TITLE F_NAME L_NAME GENDER DOB EMAIL CRMID ECID LOYALTYID ECID2 PHONE STREET CITY STATE COUNTRY ZIP LAT LONG
Mr Ewart Bennedsen M 2004-09-25 ebennedsenex@jiathis.com 71a16013-d805-7ece-9ac4-8f2cd66e8eaa 87098882279810196101440938110216748923 2e33192000007456-0365c00000000000 55019962992006103186215643814973128178 256-284-7231 72 Buhler Crossing Anniston Alabama US 36205 33.708276 -85.7922905
Dr Novelia Ansteys F 1987-10-31 nansteysdk@spotify.com 2eeb6532-82e1-0d58-8955-bf97de66a6f5 50829196174854544323574004005273946998 2e3319208000765b-3811c00000000001 65233136134594262632703695260919939885 704-181-6371 79 Northfield Hill Charlotte North Carolina US 28299 35.2188655 -80.8108885
Mr Ulises Mochan M 1996-03-20 umochanco@gnu.org 6f393075-addb-bdd6-73f8-31c393b700f5 70086119428645095847094710218289660855 2e33192080003023-26b2000000000002 82011353387947708954389153068944017636 720-837-4159 00671 Mifflin Trail Lacolle Québec CA E5A 45.08338 -73.36585
Mrs Friederike Durrell F 1979-01-3 fdurrellbj@utexas.edu 33d018ec-5fed-f1a3-56aa-079370a9511b 50164729868919217963697788808932473456 2e33192080006dfc-0cdf400000000003 64452712468609735658703639722261004071 798-528-3458 47 Fremont Hill Independencia Veracruz Llave MX 91891 19.3803931 -99.1476905
Rev Evita Bingall F 1974-02-28 ebingallod@mac.com 8c93db88-f328-8efb-dc73-d5654d371cbe 74973364195185450328832136951985519627 2e331920800038db-0559e00000000004 58945501950285346322834356669253860483 397-178-5897 56 Crescent Oaks Court Buenavista Oaxaca MX 71730 19.4458447 -99.1497665
Mr Eugenie Bechley F 1969-05-19 ebechley9r@telegraph.co.uk b0c76a3f-6526-0ad0-e050-48143b687d18 67119779213799783658184754966135750376 2e331920800001a4-24b2800000000005 59715249079109455676103900762283358508 718-374-7456 5760 Southridge Junction Staten Island New York US 10310 40.6307451 -74.1181235
Dr Cammi Haslen F 1973-12-17 chaslenqv@ehow.com 56059cd5-5006-ce5f-2f5f-15b4d856a204 61747117963243728095047674165570746095 2e33192080007c25-2ec0600000000006 86268258269066295956223980330791223320 865-538-8291 83 Veith Street Knoxville Tennessee US 37995 35.95 -84.05
Mappage
Les exigences de mappage des données CRM sont décrites dans le tableau suivant et incluent les transformations suivantes :
- Colonnes d’identité en propriétés
identityMap
- Date de naissance (DOB) en année et mois/jour
- Chaînes en entiers doubles ou courts.
person.birthDate: "YYYY-MM-DD"
person.birthYear: YYYY
Transforme birthDate en chaîne
Transforme birthYear en tant que valeur abrégée
XDM de sortie
L’exemple suivant montre les deux premières lignes du fichier CSV transformé en XDM, comme illustré dans CRM_profiles.json
:
{
"person": {
"name": {
"courtesyTitle": "Mr",
"firstName": "Ewart",
"lastName": "Bennedsen"
},
"gender": "male",
"birthDayAndMonth": "09-25",
"birthDate": "2004-09-25",
"birthYear": 2004
},
"identityMap": {
"CRMID": [{
"id": "71a16013-d805-7ece-9ac4-8f2cd66e8eaa",
"primary": false
}],
"ECID": [{
"id": "87098882279810196101440938110216748923",
"primary": false
},
{
"id": "55019962992006103186215643814973128178",
"primary": false
}],
"LOYALTYID": [{
"id": "2e33192000007456-0365c00000000000",
"primary": true
}]
},
"homePhone": {
"number": "256-284-7231"
},
"personalEmail": {
"address": "ebennedsenex@jiathis.com"
},
"homeAddress": {
"street1": "72 Buhler Crossing",
"city": "Anniston",
"stateProvince": "Alabama",
"country": "US",
"postalCode": "36205",
"_schema": {
"latitude": 33.708276,
"longitude": -85.7922905
}
}
},{
"person": {
"name": {
"courtesyTitle": "Dr",
"firstName": "Novelia",
"lastName": "Ansteys"
},
"gender": "female",
"birthDayAndMonth": "10-31",
"birthDate": "1987-10-31",
"birthYear": 1987
},
"identityMap": {
"CRMID": [{
"id": "2eeb6532-82e1-0d58-8955-bf97de66a6f5",
"primary": false
}],
"ECID": [{
"id": "50829196174854544323574004005273946998",
"primary": false
},
{
"id": "65233136134594262632703695260919939885",
"primary": false
}],
"LOYALTYID": [{
"id": "2e3319208000765b-3811c00000000001",
"primary": true
}]
},
"homePhone": {
"number": "704-181-6371"
},
"personalEmail": {
"address": "nansteysdk@spotify.com"
},
"homeAddress": {
"street1": "79 Northfield Hill",
"city": "Charlotte",
"stateProvince": "North Carolina",
"country": "US",
"postalCode": "28299",
"_schema": {
"latitude": 35.2188655,
"longitude": -80.8108888
}
}
}
Cadre de données vers schéma XDM
La hiérarchie d’un cadre de données (tel qu’un fichier Parquet) doit correspondre à celle du schéma XDM en cours de chargement.
Exemple de cadre de données
La structure de l’exemple de cadre de données suivant a été mappée à un schéma qui implémente la classe XDM Individual Profile et contient les champs les plus courants associés aux schémas de ce type.
[
StructField("person", StructType(
[
StructField("name", StructType(
[
StructField("courtesyTitle", StringType()),
StructField("firstName", StringType()),
StructField("lastName", StringType())
]
)),
StructField("gender", StringType()),
StructField("birthDayAndMonth", StringType()),
StructField("birthDate", StringType()),
StructField("birthYear", LongType())
]
)),
StructField("identityMap", MapType(
StructField("CRMID", ArrayType(
StructType(
[
StructField("id", StringType()),
StructField("primary", BooleanType())
]
)
)),
StructField("ECID", ArrayType(
StructType(
[
StructField("id", StringType()),
StructField("primary", BooleanType())
]
)
)),
StructField("LOYALTYID", ArrayType(
StructType(
[
StructField("id", StringType()),
StructField("primary", BooleanType())
]
)
))
)),
StructField("homePhone", StructType(
[
StructField("number", StringType())
]
)),
StructField("personalEmail", StructType(
[
StructField("address", StringType())
]
)),
StructField("homeAddress", StructType(
[
StructField("street1", StringType()),
StructField("city", StringType()),
StructField("stateProvince", StringType()),
StructField("country", StringType()),
StructField("postalCode", StringType()),
StructField("_schema", StructType(
[
StructField("latitude", DoubleType()),
StructField("latitude", DoubleType()),
]
))
]
))
]
Lors de la création d’un cadre de données pour une utilisation dans Adobe Experience Platform, il est important de s’assurer que sa structure hiérarchique correspond exactement à celle d’un schéma XDM existant afin que les champs soient correctement mappés.
Identités vers le mappage d’identités
Tableau des identités
[
{
"xdm:id": "someone1@example.com",
"xdm:namespace": {
"xdm:code": "Email"
}
},
{
"xdm:id": "2eeb6532-82e1-0d58-8955-bf97de66a6f5",
"xdm:namespace": {
"xdm:code": "CRMID"
}
},
{
"xdm:id": "2e3319208000765b-3811c00000000001",
"xdm:namespace": {
"xdm:code": "LOYALTYID"
}
}
]
Mappage
Les exigences de mappage pour le tableau des identités sont décrites dans le tableau suivant :
XDM de sortie
Ci-dessous, le tableau des identités transformées en XDM :
"identityMap": {
"Email": [{
"id": "someone1@example.com"
}],
"CRMID": [{
"id": "2eeb6532-82e1-0d58-8955-bf97de66a6f5"
}],
"LOYALTYID": [{
"id": "2e3319208000765b-3811c00000000001"
}]
}