Configure un flujo de datos para introducir datos por lotes desde un origen de almacenamiento en la nube en la interfaz de usuario

Este tutorial proporciona pasos sobre cómo configurar un flujo de datos para traer datos por lotes desde el origen de almacenamiento en la nube a Adobe Experience Platform.

Primeros pasos

NOTA

Para crear un flujo de datos con el fin de obtener datos por lotes de un almacenamiento en la nube, ya debe tener acceso a un origen de almacenamiento en la nube autenticado. Si no tiene acceso, vaya a la información general sobre fuentes para obtener una lista de los orígenes de almacenamiento en la nube con los que puede crear una cuenta.

Este tutorial requiere una comprensión práctica de los siguientes componentes de Experience Platform:

Formatos de archivo compatibles

Los orígenes de almacenamiento en la nube para datos por lotes admiten los siguientes formatos de archivo para la ingesta:

  • Valores separados por delimitadores (DSV): Cualquier valor de un solo carácter puede utilizarse como delimitador para archivos de datos con formato DSV.
  • JavaScript Object Notation (JSON): Los archivos de datos con formato JSON deben ser compatibles con XDM.
  • Apache Parquet: Los archivos de datos con formato de parqué deben ser compatibles con XDM.
  • Archivos comprimidos: Los archivos JSON y delimitados se pueden comprimir como: bzip2, gzip, deflate, zipDeflate, tarGzipy tar.

Adición de datos

Después de crear su cuenta de almacenamiento en la nube, la variable Añadir datos aparece, proporcionando una interfaz para explorar la jerarquía de archivos de almacenamiento en la nube y seleccionar la carpeta o el archivo específico que desea traer a Platform.

  • La parte izquierda de la interfaz es un explorador de directorios, que muestra la jerarquía de archivos de almacenamiento en la nube.
  • La parte derecha de la interfaz permite previsualizar hasta 100 filas de datos de una carpeta o archivo compatible.

Seleccione la carpeta raíz para acceder a la jerarquía de carpetas. Desde aquí, puede seleccionar una sola carpeta para introducir todos los archivos de la carpeta de forma recursiva. Al ingerir una carpeta completa, debe asegurarse de que todos los archivos de esa carpeta compartan el mismo formato de datos y esquema.

Una vez seleccionada una carpeta, la interfaz correcta se actualiza a una previsualización del contenido y la estructura del primer archivo de la carpeta seleccionada.

Durante este paso, puede realizar varias configuraciones en los datos antes de continuar. Primero, seleccione Formato de datos y, a continuación, seleccione el formato de datos adecuado para el archivo en el panel desplegable que aparece.

La tabla siguiente muestra los formatos de datos adecuados para los tipos de archivo admitidos:

Tipo de archivo Formato de datos
CSV Delimitado
JSON JSON
Parqué Parqué XDM

Seleccionar un delimitador de columna

Después de configurar el formato de datos, puede establecer un delimitador de columna al introducir archivos delimitados. Seleccione el Delimitador y, a continuación, seleccione un delimitador en el menú desplegable. El menú muestra las opciones más utilizadas para los delimitadores, incluida una coma (,), una pestaña (\t) y una barra vertical (|).

Si prefiere usar un delimitador personalizado, seleccione Personalizado e introduzca un delimitador de un solo carácter de su elección en la barra de entrada emergente.

Ingesta de archivos comprimidos

También puede introducir archivos JSON comprimidos o delimitados especificando su tipo de compresión.

En el Seleccionar datos , seleccione un archivo comprimido para la ingesta y, a continuación, seleccione su tipo de archivo adecuado y si es compatible con XDM o no. A continuación, seleccione Tipo de compresión y, a continuación, seleccione el tipo de archivo comprimido apropiado para los datos de origen.

Para traer un archivo específico a Platform, seleccione una carpeta y, a continuación, seleccione el archivo que desea ingerir. Durante este paso, también puede obtener una vista previa del contenido de otros archivos de una carpeta determinada mediante el icono de vista previa situado junto al nombre de un archivo.

Cuando termine, seleccione Siguiente.

Proporcionar detalles de flujo de datos

La variable Detalles de flujo de datos le permite seleccionar si desea utilizar un conjunto de datos existente o un nuevo conjunto de datos. Durante este proceso, también puede configurar los datos para que se introduzcan en Perfil y habilitar opciones como Diagnóstico de errores, Ingesta parcialy Alertas.

Usar un conjunto de datos existente

Para introducir datos en un conjunto de datos existente, seleccione Conjunto de datos existente. Puede recuperar un conjunto de datos existente mediante la variable Búsqueda avanzada o desplazándose por la lista de conjuntos de datos existentes en el menú desplegable. Una vez que haya seleccionado un conjunto de datos, proporcione un nombre y una descripción para el flujo de datos.

Usar un nuevo conjunto de datos

Para introducir en un nuevo conjunto de datos, seleccione Nuevo conjunto de datos y, a continuación, proporcione un nombre de conjunto de datos de salida y una descripción opcional. A continuación, seleccione un esquema para asignarlo mediante la variable Búsqueda avanzada o desplazándose por la lista de esquemas existentes en el menú desplegable. Una vez que haya seleccionado un esquema, proporcione un nombre y una descripción para el flujo de datos.

Habilitar el diagnóstico de perfiles y errores

A continuación, seleccione la Conjunto de datos del perfil para habilitar el conjunto de datos para Perfil. Esto le permite crear una vista holística de los atributos y comportamientos de una entidad. Los datos de todos los conjuntos de datos habilitados para perfil se incluirán en Perfil y se aplicarán cambios cuando guarde el flujo de datos.

Diagnóstico de errores permite generar mensajes de error detallados para cualquier registro erróneo que se produzca en el flujo de datos, mientras que Ingesta parcial le permite introducir datos que contengan errores, hasta un umbral determinado que defina manualmente. Consulte la información general sobre la ingesta parcial de lotes para obtener más información.

Habilitar alertas

Puede activar las alertas para recibir notificaciones sobre el estado del flujo de datos. Seleccione una alerta de la lista para suscribirse y recibir notificaciones sobre el estado de su flujo de datos. Para obtener más información sobre las alertas, consulte la guía de suscripción a alertas de fuentes mediante la interfaz de usuario.

Cuando haya terminado de proporcionar detalles al flujo de datos, seleccione Siguiente.

Asignación de campos de datos a un esquema XDM

La variable Asignación aparece, proporcionando una interfaz para asignar los campos de origen del esquema de origen a los campos XDM de destino adecuados en el esquema de destino.

Platform proporciona recomendaciones inteligentes para campos asignados automáticamente en función del esquema o conjunto de datos de destino que haya seleccionado. Puede ajustar manualmente las reglas de asignación para adaptarlas a sus casos de uso. En función de sus necesidades, puede elegir asignar campos directamente o utilizar funciones de preparación de datos para transformar los datos de origen a fin de derivar valores calculados o calculados. Para ver los pasos completos sobre el uso de la interfaz del asignador y los campos calculados, consulte la Guía de la interfaz de usuario de preparación de datos.

Una vez asignados correctamente los datos de origen, seleccione Siguiente.

Programar ejecuciones de ingesta

IMPORTANTE

Se recomienda programar el flujo de datos para una ingesta única al usar la variable Fuente de FTP.

La variable Programación , lo que le permite configurar una programación de ingesta para que ingrese automáticamente los datos de origen seleccionados mediante las asignaciones configuradas. De forma predeterminada, la programación está configurada en Once. Para ajustar la frecuencia de ingesta, seleccione Frecuencia y, a continuación, seleccione una opción en el menú desplegable.

SUGERENCIA

El intervalo y el relleno no son visibles durante una ingesta única.

programación

Si establece la frecuencia de ingesta en Minute, Hour, Dayo Week, debe configurar un intervalo para establecer un intervalo de tiempo definido entre cada ingesta. Por ejemplo, una frecuencia de ingesta establecida en Day y un intervalo establecido en 15 significa que el flujo de datos está programado para la ingesta de datos cada 15 días.

Durante este paso, también puede activar relleno y defina una columna para la ingesta incremental de datos. El relleno se utiliza para introducir datos históricos, mientras que la columna que defina para la ingesta incremental permite diferenciar nuevos datos de los datos existentes.

Consulte la siguiente tabla para obtener más información sobre las configuraciones de programación.

Campo Descripción
Frecuencia Frecuencia con la que se produce una ingesta. Las frecuencias seleccionables incluyen Once, Minute, Hour, Dayy Week.
Intervalo Un entero que define el intervalo para la frecuencia seleccionada. El valor del intervalo debe ser un entero distinto de cero y debe establecerse en bueno o igual a 15.
Hora de inicio Marca de tiempo UTC que indica cuándo se configura la primera ingesta. La hora de inicio debe ser buena o igual a la hora UTC actual.
Relleno Un valor booleano que determina qué datos se introducen inicialmente. Si el relleno está habilitado, todos los archivos actuales de la ruta especificada se incorporarán durante la primera ingesta programada. Si el relleno está desactivado, solo se incorporarán los archivos que se cargan entre la primera ejecución de la ingesta y la hora de inicio. Los archivos cargados antes de la hora de inicio no se incorporarán.
NOTA

Para la ingesta por lotes, cada flujo de datos resultante selecciona los archivos que se van a ingerir de su origen en función de sus última modificación marca de tiempo. Esto significa que los flujos de datos por lotes seleccionan los archivos del origen que son nuevos o que se han modificado desde la última ejecución del flujo. Además, debe asegurarse de que haya un lapso de tiempo suficiente entre la carga de archivos y la ejecución de un flujo programado, ya que es posible que los archivos que no se carguen completamente en la cuenta de almacenamiento en la nube antes del tiempo de ejecución del flujo programado no se recojan para su incorporación.

Cuando termine de configurar la programación de ingesta, seleccione Siguiente.

Revise el flujo de datos

La variable Consulte , lo que le permite revisar el nuevo flujo de datos antes de crearlo. Los detalles se agrupan en las siguientes categorías:

  • Conexión: Muestra el tipo de origen, la ruta correspondiente del archivo de origen elegido y la cantidad de columnas dentro de ese archivo de origen.
  • Asignación de campos de conjunto de datos y asignación: Muestra en qué conjunto de datos se están incorporando los datos de origen, incluido el esquema al que se adhiere el conjunto de datos.
  • Programación: Muestra el período, la frecuencia y el intervalo activos del programa de ingesta.

Una vez que haya revisado el flujo de datos, haga clic en Finalizar y permitir que se cree un flujo de datos.

Pasos siguientes

Al seguir este tutorial, ha creado correctamente un flujo de datos para incorporar datos de un almacenamiento en la nube externo y ha obtenido información sobre la monitorización de conjuntos de datos. Para obtener más información sobre la creación de flujos de datos, puede complementar su aprendizaje viendo el siguiente vídeo. Además, los datos entrantes ahora se pueden utilizar en el flujo descendente Platform servicios como Real-time Customer Profile y Data Science Workspace. Consulte los siguientes documentos para obtener más información:

ADVERTENCIA

La variable Platform La interfaz de usuario que se muestra en el siguiente vídeo no está actualizada. Consulte la documentación anterior para obtener las últimas capturas de pantalla y funciones de la interfaz de usuario.

Apéndice

Las secciones siguientes proporcionan información adicional para trabajar con conectores de origen.

Monitorizar el flujo de datos

Una vez creado el flujo de datos, puede monitorizar los datos que se incorporan a través de él para ver información sobre las tasas de ingesta, el éxito y los errores. Para obtener más información sobre cómo monitorizar el flujo de datos, visite el tutorial en supervisión de cuentas y flujos de datos en la interfaz de usuario.

Actualizar el flujo de datos

Para actualizar las configuraciones de los flujos de datos, programar, asignar e información general, visite el tutorial en actualización de flujos de datos de fuentes en la interfaz de usuario

Eliminar el flujo de datos

Puede eliminar flujos de datos que ya no sean necesarios o que se hayan creado incorrectamente empleando la función Eliminar en la función Flujos de datos espacio de trabajo. Para obtener más información sobre cómo eliminar flujos de datos, visite el tutorial en eliminación de flujos de datos en la interfaz de usuario.

En esta página