Ingesta de datos por lotes

En esta lección, debe introducir datos por lotes en Experience Platform mediante varios métodos.

La ingesta de datos por lotes le permite introducir una gran cantidad de datos en Adobe Experience Platform a la vez. Puede introducir datos por lotes de una sola vez y cargarlos en la interfaz de Platform o mediante la API. También puede configurar cargas por lotes programadas regularmente desde servicios de terceros, como servicios de almacenamiento en la nube, mediante conectores de origen.

Ingenieros de datos deberá introducir datos por lotes fuera de este tutorial.

Antes de comenzar los ejercicios, vea este breve vídeo para obtener más información sobre la ingesta de datos:

Permisos necesarios

En el Configuración de permisos Esta lección, ha configurado todos los controles de acceso necesarios para completar esta lección.

Necesitará acceso a un servidor (S)FTP o a una solución de almacenamiento en la nube para el ejercicio Fuentes. Si no dispone de una solución alternativa.

Ingesta de datos por lotes con la interfaz de usuario de Platform

Los datos se pueden cargar directamente en un conjunto de datos en la pantalla de conjuntos de datos en los formatos JSON y parquet. Esta es una buena manera de probar la ingesta de algunos de los datos después de crear una

Descargue y prepare los datos

En primer lugar, obtenga los datos de ejemplo y personalícelos para su inquilino:

NOTE
Datos incluidos en la luma-data.zip es ficticio y solo debe utilizarse con fines de demostración.
  1. Descargar luma-data.zip a su Recursos de tutorial de Luma carpeta.

  2. Descomprima el archivo y cree una carpeta llamada luma-data que contiene los cuatro archivos de datos que utilizaremos en esta lección

  3. Abrir luma-loyalty.json en un editor de texto y reemplace todas las instancias de _techmarketingdemos con su propio id de inquilino de guion bajo, como se ve en sus propios esquemas:
    Subrayar id de inquilino

  4. Guarde el archivo actualizado

Ingesta de datos

  1. En la interfaz de usuario de Platform, seleccione Conjuntos de datos en el panel de navegación izquierdo

  2. Abra su Luma Loyalty Dataset

  3. Desplácese hacia abajo hasta que vea el Añadir datos en la columna derecha

  4. Cargue el luma-loyalty.json archivo.

  5. Una vez cargado el archivo, aparecerá una fila para el lote

  6. Si vuelve a cargar la página después de unos minutos, verá que el lote se ha cargado correctamente con 1000 registros y 1000 fragmentos de perfil.

    Ingesta

NOTE
Hay algunas opciones, Diagnósticos de error y Ingesta parcial, que verá en varias pantallas de esta lección. Estas opciones no se tratan en el tutorial. Información rápida:
  • Al habilitar los diagnósticos de error, se generan datos sobre la ingesta de sus datos, que puede revisar mediante la API de acceso a datos. Obtenga más información al respecto en la documentación.
  • La ingesta parcial permite introducir datos que contienen errores, hasta un determinado umbral que puede especificar. Obtenga más información al respecto en la documentación

Validación de los datos

Existen varias formas de confirmar que los datos se han introducido correctamente.

Validación en la interfaz de usuario de Platform

Para confirmar que los datos se han introducido en el conjunto de datos:

  1. En la misma página donde ha introducido los datos, seleccione la opción Previsualizar conjunto de datos botón en la parte superior derecha

  2. Seleccione el Previsualizar y debería poder ver algunos de los datos introducidos.

    Previsualización del conjunto de datos correcto

Para confirmar que los datos han aterrizado en el perfil (los datos pueden tardar unos minutos en aterrizar):

  1. Ir a Perfiles en el panel de navegación izquierdo
  2. Seleccione el icono situado junto al Seleccionar área de nombres de identidad campo para abrir el modal
  3. Seleccione su Luma Loyalty Id namespace
  4. A continuación, introduzca uno de los loyaltyId valores del conjunto de datos, 5625458
  5. Seleccionar Ver
    Confirmar un perfil del conjunto de datos

Validación con eventos de ingesta de datos

Si se ha suscrito a los eventos de ingesta de datos de la lección anterior, compruebe la dirección URL única de webhook.site. Debería ver tres solicitudes que aparecen en el siguiente orden, con algún tiempo entre ellas, con lo siguiente eventCode valores:

  1. ing_load_success: el lote tal como se ha introducido.
  2. ig_load_success: el lote se ha introducido en el gráfico de identidad
  3. ps_load_success: el lote se ha introducido en el servicio de perfil

webhook de ingesta de datos

Consulte la documentación para obtener más información sobre las notificaciones.

Ingesta de datos por lotes con la API de Platform

Ahora vamos a cargar datos mediante la API.

NOTE
Los arquitectos de datos pueden cargar los datos de CRM mediante el método de interfaz de usuario.

Descargue y prepare los datos

  1. Ya debería haber descargado y descomprimido luma-data.zip en su Luma Tutorial Assets carpeta.
  2. Abrir luma-crm.json en un editor de texto y reemplace todas las instancias de _techmarketingdemos con su propio id de inquilino de guion bajo, tal como se ve en los esquemas
  3. Guarde el archivo actualizado

Obtención del ID del conjunto de datos

Primero vamos a obtener el ID del conjunto de datos en el que queremos introducir los datos:

  1. Abrir Postman
  2. Si no tiene un token de acceso, abra la solicitud OAuth: Request Access Token y seleccione Enviar para solicitar un nuevo token de acceso, como hizo en el Postman lección.
  3. Abra las variables de entorno y compruebe el valor de CONTAINER_ID sigue siendo tenant
  4. Abrir la solicitud Catalog Service API > Datasets > Retrieve a list of datasets. y seleccione Enviar
  5. Usted debe conseguir una 200 OK respuesta
  6. Copie el ID del Luma CRM Dataset del cuerpo de respuesta
    Obtención del ID del conjunto de datos

Crear el lote

Ahora podemos crear un lote en el conjunto de datos:

  1. Descargar Ingesta de datos API.postman_collection.json a su Luma Tutorial Assets carpeta

  2. Importe la colección en Postman

  3. Seleccione la solicitud Data Ingestion API > Batch Ingestion > Create a new batch in Catalog Service.

  4. Pegue lo siguiente como Cuerpo de la solicitud, reemplazar el valor datasetId por el suyo propio:

    code language-json
    {
        "datasetId":"REPLACE_WITH_YOUR_OWN_DATASETID",
        "inputFormat": {
            "format": "json"
        }
    }
    
  5. Seleccione el Enviar botón

  6. Debe obtener una respuesta 201 Created que contenga el ID del nuevo lote.

  7. Copie el id del nuevo lote
    Lote creado

Ingesta de datos

Ahora podemos cargar los datos en el lote:

  1. Seleccione la solicitud Data Ingestion API > Batch Ingestion > Upload a file to a dataset in a batch.

  2. En el Parámetros pestaña, introduzca su id del conjunto de datos y el id de lote en sus campos respectivos

  3. En el Parámetros pestaña, introduzca luma-crm.json como el filePath

  4. En el Cuerpo , seleccione la pestaña binario opción

  5. Seleccione el descargado luma-crm.json de su Luma Tutorial Assets carpeta

  6. Seleccionar Enviar y debería obtener una respuesta 200 OK con "1" en el cuerpo de la respuesta

    Datos cargados

En este punto, si observa el lote en la interfaz de usuario de Platform, verá que está en un "Cargando" estado:
Carga por lotes

Dado que la API por lotes se utiliza a menudo para cargar varios archivos, debe informar a Platform cuando se complete un lote, lo que haremos en el siguiente paso.

Completar el lote

Para completar el lote:

  1. Seleccione la solicitud Data Ingestion API > Batch Ingestion > Finish uploading a file to a dataset in a batch.

  2. En el Parámetros pestaña, introduzca COMPLETE como el acción

  3. En el Parámetros pestaña, introduzca su id de lote. No se preocupe por el ID del conjunto de datos o la ruta de archivo, si están presentes.

  4. Asegúrese de que la dirección URL del POST sea https://platform.adobe.io/data/foundation/import/batches/:batchId?action=COMPLETE y que no hay ninguna referencia innecesaria a la datasetId o filePath

  5. Seleccionar Enviar y debería obtener una respuesta 200 OK con "1" en el cuerpo de la respuesta

    Lote completado

Validación de los datos

Validación en la interfaz de usuario de Platform

Valide que los datos hayan aterrizado en la interfaz de usuario de Platform como lo hizo para el conjunto de datos de Fidelidad.

En primer lugar, confirme que el lote muestra que se han introducido 1000 registros:

Lote correcto

A continuación, confirme el lote mediante Vista previa del conjunto de datos:

Previsualización por lotes

Finalmente, confirme que uno de los perfiles se ha creado buscando uno en el Luma CRM Id namespace, por ejemplo 112ca06ed53d3db37e4cea49cc45b71e

Perfil introducido

Hay una cosa interesante que acaba de pasar que quiero señalar. Abra eso Danny Wright perfil. El perfil tiene un Lumacrmid y una Lumaloyaltyid. Recuerde la Luma Loyalty Schema contenía dos campos de identidad, ID de fidelidad de Luma e ID de CRM. Ahora que hemos cargado ambos conjuntos de datos, se han combinado en un solo perfil. Los datos de fidelización tenían Daniel como el nombre y "Nueva York" como la dirección de inicio, mientras que los datos de CRM tenían Danny como nombre y Portland como la dirección del cliente con el mismo ID de fidelidad. Volveremos a la pregunta de por qué aparece el nombre Danny en la lección sobre políticas de combinación.

¡Enhorabuena, acaba de combinar perfiles!

Perfil combinado

Validación con eventos de ingesta de datos

Si se ha suscrito a los eventos de ingesta de datos de la lección anterior, compruebe la dirección URL única de webhook.site. Debería ver tres solicitudes, igual que con los datos de fidelidad:

webhook de ingesta de datos

Consulte la documentación para obtener más información sobre las notificaciones.

Ingesta de datos con flujos de trabajo

Veamos otra forma de cargar los datos. La función de flujos de trabajo permite introducir datos CSV que aún no están modelados en XDM.

Descargue y prepare los datos

  1. Ya debería haber descargado y descomprimido luma-data.zip en su Luma Tutorial Assets carpeta.
  2. Confirme que dispone deluma-products.csv

Crear un flujo de trabajo

Ahora vamos a configurar el flujo de trabajo:

  1. Ir a Flujos de trabajo en el panel de navegación izquierdo
  2. Seleccionar Asignar CSV a esquema XDM y seleccione la Launch botón
    Inicio del flujo de trabajo
  3. Seleccione su Luma Product Catalog Dataset y seleccione la Siguiente botón
    Seleccione el conjunto de datos
  4. Añada el luma-products.csv archivo que ha descargado y seleccione el Siguiente botón
    Seleccione el conjunto de datos
  5. Ahora se encuentra en la interfaz del asignador, en la que puede asignar un campo desde los datos de origen (uno de los nombres de columna en la variable luma-products.csv ) a los campos XDM en el esquema de destino. En nuestro ejemplo, los nombres de columna están lo suficientemente cerca de los nombres de campo de esquema que el asignador puede detectar automáticamente la asignación correcta. Si el asignador no pudiera detectar automáticamente el campo derecho, seleccionaría el icono a la derecha del campo de destino para seleccionar el campo XDM correcto. Además, si no desea introducir una de las columnas del CSV, puede eliminar la fila del asignador. No dude en jugar y cambiar los encabezados de columna en la luma-products.csv para familiarizarse con el funcionamiento del asignador.
  6. Seleccione el Finalizar botón
    Seleccione el conjunto de datos

Validación de los datos

Cuando se haya cargado el lote, compruebe la carga previsualizando el conjunto de datos.

Dado que la variable Luma Product SKU es un área de nombres que no es de personas, no veremos ningún perfil para los sku de productos.

Debería ver las tres visitas a su webhook.

Ingesta de datos con orígenes

Bien, hiciste las cosas de la manera difícil. Ahora vamos a mudarnos a la tierra prometida de automatizado ingesta por lotes. Cuando digo: "¡PONLO!" tú dices: "¡OLVÍDALO!" "¡PONLO!" "¡OLVÍDALO!" "¡PONLO!" "¡OLVÍDALO!" Solo bromeaba, ¡nunca harías algo así! Ok, de vuelta al trabajo. Ya casi has terminado.

Ir a Fuentes en el panel de navegación izquierdo para abrir el catálogo de fuentes. Aquí verá varias integraciones listas para usar con los proveedores de datos y almacenamiento líderes en el sector.

Catálogo de origen

Bien, vamos a ingerir datos usando un conector de origen.

Este ejercicio será elegir-su-propio-estilo de aventura. Voy a mostrar el flujo de trabajo mediante el conector de origen FTP. Puede utilizar un conector de origen de Cloud Storage diferente que utilice en su empresa o cargar el archivo json mediante la interfaz de usuario del conjunto de datos, como hicimos con los datos de fidelidad.

Muchos de los orígenes tienen un flujo de trabajo de configuración similar, en el que:

  1. Introduzca los detalles de autenticación
  2. Seleccione los datos que desea introducir
  3. Seleccione el conjunto de datos de Platform en el que desea introducirlo
  4. Asignar los campos al esquema XDM
  5. Elija la frecuencia con la que desea volver a ingerir datos desde esa ubicación
NOTE
Los datos de compra sin conexión que utilizaremos en este ejercicio contienen datos de fecha y hora. Los datos de fecha y hora deben estar Cadenas con formato ISO 8061 ("2018-07-10T15:05:59.000-08:00") o Tiempo de Unix en milisegundos (1531263959000) y se convierten en el momento de la ingesta al tipo XDM de destino. Para obtener más información sobre la conversión de datos y otras restricciones, consulte la documentación de la API de ingesta por lotes.

Descargue, prepare y cargue los datos a su proveedor de almacenamiento en la nube preferido

  1. Ya debería haber descargado y descomprimido luma-data.zip en su Luma Tutorial Assets carpeta.
  2. Abrir luma-offline-purchases.json en un editor de texto y reemplace todas las instancias de _techmarketingdemos con su propio id de inquilino de guion bajo, tal como se ve en los esquemas
  3. Actualice todas las marcas de tiempo para que los eventos se produzcan en el último mes (por ejemplo, busque "timestamp":"2022-06 y reemplace el año y el mes)
  4. Elija su proveedor de almacenamiento en la nube preferido, asegurándose de que esté disponible en la Fuentes catalogar
  5. Cargar luma-offline-purchases.json a una ubicación de su proveedor de almacenamiento en la nube preferido

Ingeste los datos en su ubicación de almacenamiento en la nube preferida

  1. En la interfaz de usuario de Platform, filtre Fuentes catalogar a Almacenamiento en la nube

  2. Tenga en cuenta que hay vínculos prácticos a la documentación en la sección ...

  3. En el cuadro de su proveedor de almacenamiento en la nube preferido, seleccione el Configurar botón
    Seleccione configurar

  4. Autenticación es el primer paso. Escriba el nombre de su cuenta, por ejemplo Luma's FTP Account y sus datos de autenticación. Este paso debería ser bastante similar para todas las fuentes de almacenamiento en la nube, aunque los campos pueden variar ligeramente. Una vez que haya especificado los detalles de autenticación de una cuenta, puede reutilizarlos para otras conexiones de origen que podrían estar enviando datos diferentes en programaciones diferentes de otros archivos de la misma cuenta

  5. Seleccione el Botón Conectar con el origen

  6. Cuando Platform se haya conectado correctamente al origen, seleccione la opción Siguiente botón
    Autenticar con el origen

  7. En el Seleccionar datos paso, la interfaz de usuario utilizará sus credenciales para abrir la carpeta en su solución de almacenamiento en la nube

  8. Seleccione los archivos que desee introducir, por ejemplo luma-offline-purchases.json

  9. Como el Formato de datos, seleccione XDM JSON

  10. A continuación, puede obtener una vista previa de la estructura json y de los datos de ejemplo en el archivo

  11. Seleccione el Siguiente botón
    Seleccione los archivos de datos

  12. En el Asignación paso, seleccione su Luma Offline Purchase Events Dataset y seleccione la Siguiente botón. Tenga en cuenta en el mensaje que, como los datos que estamos ingiriendo son un archivo JSON, no hay ningún paso de asignación en el que asignemos el campo de origen al campo de destino. Los datos JSON ya deben estar en XDM. Si estuviera introduciendo un CSV, vería la interfaz de usuario de asignación completa en este paso:
    Seleccione el conjunto de datos

  13. En el Programación , elija la frecuencia con la que desea volver a ingerir los datos del origen. Dedique un momento a ver las opciones. Solo vamos a hacer una ingesta única, así que deje el Frecuencia el Una y seleccione la Siguiente botón:
    Programar el flujo de datos

  14. En el Detalles del flujo de datos paso a paso, puede elegir un nombre para el flujo de datos, introducir una descripción opcional, activar los diagnósticos de error y la ingesta parcial. Deje la configuración tal cual y seleccione Siguiente botón:
    Editar detalles del flujo de datos

  15. En el Revisar paso, puede revisar todos los ajustes a la vez y editarlos o seleccionar el Finalizar botón

  16. Después de guardar, aterrizará en una pantalla como esta:
    Completar

Validación de los datos

Cuando se haya cargado el lote, compruebe la carga previsualizando el conjunto de datos.

Debería ver las tres visitas a su webhook.

Búsqueda del perfil con valor 5625458 en el loyaltyId de nuevo el área de nombres para ver si hay algún evento de compra en su perfil. Debería ver una compra. Puede profundizar en los detalles de la compra seleccionando Ver JSON:

Evento de compra en el perfil

Herramientas de ETL

Adobe se asocia con varios proveedores de ETL para admitir la ingesta de datos en Experience Platform. Debido a la variedad de proveedores externos, ETL no se trata en este tutorial, aunque puede revisar algunos de estos recursos:

Recursos adicionales

Ahora vamos a… transmitir datos mediante el SDK web

recommendation-more-help
513160b6-bf42-4c58-abdd-4f817b1cccad