Configurar un flujo de datos para una conexión por lotes de almacenamiento en la nube en la interfaz de usuario

Un flujo de datos es una tarea programada que recupera e incorpora datos de un origen a un conjunto de datos Platform. Este tutorial proporciona pasos para configurar un nuevo flujo de datos con su cuenta de almacenamiento en la nube.

Primeros pasos

Este tutorial requiere una comprensión práctica de los siguientes componentes de Adobe Experience Platform:

Además, este tutorial requiere que tenga una cuenta de almacenamiento en la nube establecida. Puede encontrar una lista de tutoriales para crear distintas cuentas de almacenamiento en la nube en la interfaz de usuario en la información general de conectores de origen.

Formatos de archivo compatibles

Experience Platform admite los siguientes formatos de archivo que se van a introducir desde almacenes externos:

  • Valores separados por delimitadores (DSV): Cualquier valor de un solo carácter puede utilizarse como delimitador para archivos de datos con formato DSV.
  • JavaScript Object Notation (JSON): Los archivos de datos con formato JSON deben ser compatibles con XDM.
  • Apache Parquet: Los archivos de datos con formato de parqué deben ser compatibles con XDM.
  • Archivos comprimidos: Los archivos JSON y delimitados se pueden comprimir como: bzip2, gzip, deflate, zipDeflate, tarGzip y tar.

Seleccionar datos

Después de crear su cuenta de almacenamiento en la nube, aparece el paso Select data, que proporciona una interfaz para explorar la jerarquía de archivos de almacenamiento en la nube.

  • La parte izquierda de la interfaz es un explorador de directorios, que muestra sus archivos y directorios de almacenamiento en la nube.
  • La parte derecha de la interfaz permite previsualizar hasta 100 filas de datos de un archivo compatible.

interfaz

La selección de una carpeta de la lista permite recorrer la jerarquía de carpetas en carpetas más profundas. Puede seleccionar una sola carpeta para introducir todos los archivos de la carpeta de forma recursiva. Al ingerir una carpeta completa, debe asegurarse de que todos los archivos de la carpeta compartan el mismo esquema.

Una vez que haya seleccionado un archivo o carpeta compatible, seleccione el formato de datos correspondiente en el menú desplegable Select data format.

La tabla siguiente muestra el formato de datos adecuado para los tipos de archivo admitidos:

Tipo de archivo Formato de datos
CSV Delimitado
JSON JSON
Parqué Parqué XDM

Seleccione JSON y espere unos segundos para que se complete la interfaz de vista previa.

select-data

NOTA

A diferencia de los tipos de archivo delimitados y JSON, los archivos con formato de parquet no están disponibles para la vista previa.

La interfaz de vista previa permite inspeccionar el contenido y la estructura de un archivo. De forma predeterminada, la interfaz de vista previa muestra el primer archivo de la carpeta seleccionada.

Para obtener una vista previa de un archivo diferente, seleccione el icono de vista previa junto al nombre del archivo que desea inspeccionar.

default-preview

Una vez que haya inspeccionado el contenido y la estructura de los archivos de la carpeta, seleccione Next para introducir todos los archivos de la carpeta de forma recursiva.

select-folder

Si prefiere seleccionar un archivo específico, seleccione el archivo que desea ingerir y, a continuación, seleccione Siguiente.

select-file

Definir un delimitador personalizado para archivos delimitados

Puede establecer un delimitador personalizado al introducir archivos delimitados. Seleccione la opción Delimiter y, a continuación, seleccione un delimitador en el menú desplegable. El menú muestra las opciones más utilizadas para los delimitadores, como una coma (,), una pestaña (\t) y una barra vertical (|). Si prefiere usar un delimitador personalizado, seleccione Personalizado e introduzca un delimitador de un solo carácter de su elección en la barra de entrada emergente.

Una vez que haya seleccionado el formato de los datos y establecido el delimitador, seleccione Next.

Ingesta de archivos comprimidos

Puede introducir archivos JSON comprimidos o delimitados especificando su tipo de compresión.

En el paso Select data, seleccione un archivo comprimido para su ingesta y, a continuación, seleccione su tipo de archivo apropiado y si es compatible con XDM o no. A continuación, seleccione Compression type y, a continuación, seleccione el tipo de archivo comprimido apropiado para los datos de origen.

Con un tipo de archivo comprimido identificado, seleccione Next para continuar.

Asignación de campos de datos a un esquema XDM

Aparece el paso Mapping, que proporciona una interfaz interactiva para asignar los datos de origen a un conjunto de datos Platform. Los archivos de origen formateados en Parquet deben ser compatibles con XDM y no requieren que configure manualmente la asignación, mientras que los archivos CSV requieren que configure explícitamente la asignación, pero permiten seleccionar qué campos de datos de origen asignar. Los archivos JSON, si se marcan como quejas de XDM, no requieren configuración manual. Sin embargo, si no está marcado como compatible con XDM, necesitará que configure explícitamente la asignación.

Elija un conjunto de datos para los datos entrantes en los que se van a introducir. Puede utilizar un conjunto de datos existente o crear uno nuevo.

Usar un conjunto de datos existente

Para introducir datos en un conjunto de datos existente, seleccione Conjunto de datos existente y, a continuación, seleccione el icono del conjunto de datos.

Aparece el cuadro de diálogo Seleccionar conjunto de datos. Busque el conjunto de datos que desea utilizar, selecciónelo y haga clic en Continuar.

Usar un nuevo conjunto de datos

Para introducir datos en un nuevo conjunto de datos, seleccione Nuevo conjunto de datos e introduzca un nombre y una descripción para el conjunto de datos en los campos proporcionados. Para añadir un esquema, puede introducir un nombre de esquema existente en el cuadro de diálogo Select schema. También puede seleccionar la Búsqueda avanzada del esquema para buscar un esquema apropiado.

Durante este paso, puede habilitar su conjunto de datos para Real-time Customer Profile y crear una vista holística de los atributos y comportamientos de una entidad. Los datos de todos los conjuntos de datos habilitados se incluirán en Profile y los cambios se aplicarán cuando guarde el flujo de datos.

Alterne el botón Profile dataset para habilitar el conjunto de datos de destinatario para Profile.

Aparece el cuadro de diálogo Select schema. Seleccione el esquema que desea aplicar al nuevo conjunto de datos y, a continuación, seleccione Listo.

En función de sus necesidades, puede elegir asignar campos directamente o utilizar funciones de asignador para transformar los datos de origen a fin de derivar valores calculados o calculados. Para obtener más información sobre las funciones de asignación y asignación de datos, consulte el tutorial sobre asignación de datos CSV a campos de esquema XDM.

En el caso de los archivos JSON, además de asignar directamente los campos a otros campos, puede asignar directamente objetos a otros objetos y matrices a otras matrices. También puede obtener una vista previa y asignar tipos de datos complejos, como matrices en archivos JSON, mediante un conector de origen de almacenamiento en la nube.

Tenga en cuenta que no puede asignar entre distintos tipos. Por ejemplo, no se puede asignar un objeto a una matriz ni a un campo a un objeto.

CONSEJO

Platform proporciona recomendaciones inteligentes para campos asignados automáticamente basadas en el esquema o conjunto de datos de destino seleccionado. Puede ajustar manualmente las reglas de asignación para adaptarlas a sus casos de uso.

Seleccione Preview data para ver los resultados de asignación de hasta 100 filas de datos de ejemplo del conjunto de datos seleccionado.

Durante la vista previa, la columna de identidad se prioriza como el primer campo, ya que es la información clave necesaria al validar los resultados de la asignación.

Una vez asignados los datos de origen, seleccione Close.

Programar ejecuciones de ingesta

Aparece el paso Scheduling , que le permite configurar una programación de ingesta para que ingrese automáticamente los datos de origen seleccionados mediante las asignaciones configuradas. La siguiente tabla describe los diferentes campos configurables para la programación:

Campo Descripción
Frecuencia Las frecuencias seleccionables incluyen Once, Minute, Hour, Day y Week.
Intervalo Un entero que define el intervalo para la frecuencia seleccionada.
Hora de inicio Marca de tiempo UTC que indica cuándo se configura la primera ingesta.
Relleno Un valor booleano que determina qué datos se introducen inicialmente. Si Relleno de fondo está habilitado, todos los archivos actuales de la ruta especificada se incorporarán durante la primera ingesta programada. Si Backfill está deshabilitado, solo se incorporarán los archivos que se carguen entre la primera ejecución de la ingesta y la hora de inicio. Los archivos cargados antes de la hora de inicio no se incorporarán.

Los flujos de datos están diseñados para introducir datos automáticamente y de forma programada. Comience por seleccionar la frecuencia de ingesta. A continuación, configure el intervalo para designar el periodo entre dos ejecuciones de flujo. El valor del intervalo debe ser un entero distinto de cero y debe establecerse en bueno o igual a 15.

Para definir la hora de inicio de la ingesta, ajuste la fecha y la hora que se muestran en el cuadro de hora de inicio. También puede seleccionar el icono de calendario para editar el valor de la hora de inicio. La hora de inicio debe ser buena o igual a la hora actual en UTC.

Proporcione valores para la programación y seleccione Next.

Configurar un flujo de datos de ingesta único

Para configurar la ingesta única, seleccione la flecha desplegable de frecuencia y seleccione Once. Puede seguir realizando modificaciones en un conjunto de flujos de datos para una ingesta de frecuencia única, siempre y cuando la hora de inicio permanezca en el futuro. Una vez que ha pasado la hora de inicio, ya no se puede editar el valor de frecuencia de una sola vez. ​El ​relleno de intervalación no es visible al configurar un flujo de datos de ingesta único.

IMPORTANTE

Se recomienda programar el flujo de datos para una ingesta única al utilizar el conector FTP.

Una vez que haya proporcionado los valores adecuados a la programación, seleccione Next.

Proporcionar detalles de flujo de datos

Aparece el paso Dataflow detail, que le permite dar un nombre y una breve descripción del nuevo flujo de datos.

Durante este proceso, también puede habilitar la ingesta parcial y los diagnósticos de error. Al habilitar la ingesta parcial se puede ingerir datos que contengan errores, hasta un umbral determinado que se pueda establecer. Al habilitar Error diagnostic se proporcionarán detalles sobre cualquier dato incorrecto que se haya enviado por lotes por separado. Para obtener más información, consulte la información general sobre la ingesta parcial de lotes.

Proporcione valores para el flujo de datos y seleccione Next.

Revise el flujo de datos

Aparece el paso Review, que le permite revisar el nuevo flujo de datos antes de crearlo. Los detalles se agrupan en las siguientes categorías:

  • Conexión: Muestra el tipo de origen, la ruta correspondiente del archivo de origen elegido y la cantidad de columnas dentro de ese archivo de origen.
  • Asignar campos de conjunto de datos y asignación: Muestra en qué conjunto de datos se están incorporando los datos de origen, incluido el esquema al que se adhiere el conjunto de datos.
  • Programación: Muestra el período, la frecuencia y el intervalo activos del programa de ingesta.

Una vez que haya revisado el flujo de datos, haga clic en Finish y permita que se cree el flujo de datos.

Monitorizar el flujo de datos

Una vez creado el flujo de datos, puede monitorizar los datos que se incorporan a través de él para ver información sobre las tasas de ingesta, el éxito y los errores. Para obtener más información sobre cómo monitorizar el flujo de datos, consulte el tutorial sobre monitorización de cuentas y flujos de datos en la interfaz de usuario.

Eliminar el flujo de datos

Puede eliminar flujos de datos que ya no sean necesarios o que se hayan creado incorrectamente empleando la función Delete disponible en el espacio de trabajo Dataflows. Para obtener más información sobre cómo eliminar flujos de datos, consulte el tutorial sobre la eliminación de flujos de datos en la interfaz de usuario.

Pasos siguientes

Al seguir este tutorial, ha creado correctamente un flujo de datos para incorporar datos de un almacenamiento en la nube externo y ha obtenido información sobre la monitorización de conjuntos de datos. Para obtener más información sobre la creación de flujos de datos, puede complementar su aprendizaje viendo el siguiente vídeo. Además, los datos entrantes ahora se pueden usar en servicios descendentes Platform como Real-time Customer Profile y Data Science Workspace. Consulte los siguientes documentos para obtener más información:

ADVERTENCIA

La interfaz de usuario Platform que se muestra en el siguiente vídeo no está actualizada. Consulte la documentación anterior para obtener las últimas capturas de pantalla y funciones de la interfaz de usuario.

Apéndice

Las secciones siguientes proporcionan información adicional para trabajar con conectores de origen.

Desactivación de un flujo de datos

Cuando se crea un flujo de datos, este se activa inmediatamente e ingresa los datos según la programación que se le haya dado. Puede deshabilitar un flujo de datos activo en cualquier momento siguiendo las instrucciones que se indican a continuación.

Dentro del espacio de trabajo Sources , haga clic en la pestaña Browse. A continuación, haga clic en el nombre de la cuenta asociada al flujo de datos activo que desea desactivar.

Aparece la página Source activity. Seleccione el flujo de datos activo de la lista para abrir su columna Properties en el lado derecho de la pantalla, que contiene un botón de alternancia Enabled. Haga clic en el botón de alternancia para deshabilitar el flujo de datos. Se puede utilizar la misma opción para volver a habilitar un flujo de datos una vez desactivado.

Activar datos de entrada para la población Profile

Los datos de entrada del conector de origen se pueden utilizar para enriquecer y rellenar los datos Real-time Customer Profile. Para obtener más información sobre cómo rellenar los datos Real-time Customer Profile, consulte el tutorial sobre Población del perfil.

En esta página