Un flujo de datos es una tarea programada que recupera e ingiere datos de un origen a un Platform conjunto de datos. Este tutorial proporciona pasos para configurar un nuevo flujo de datos con su cuenta de almacenamiento en la nube.
Este tutorial requiere un conocimiento práctico de los siguientes componentes de Adobe Experience Platform:
Además, este tutorial requiere que tenga una cuenta de almacenamiento en la nube establecida. Encontrará una lista de tutoriales para crear distintas cuentas de almacenamiento en la nube en la interfaz de usuario en la descripción general de los conectoresde origen.
Experience Platform admite los siguientes formatos de archivo para la ingesta desde almacenamientos externos:
Después de crear la cuenta de almacenamiento en la nube, aparece el paso Seleccionar datos , que proporciona una interfaz interactiva para explorar la jerarquía de almacenamientos en la nube.
La selección de una carpeta de la lista permite recorrer la jerarquía de carpetas en carpetas más profundas. Una vez seleccionado un archivo o carpeta compatible, aparece la lista desplegable Seleccionar formato de datos, donde puede elegir un formato para mostrar los datos en la ventana previsualización.
Una vez que se complete la ventana de previsualización, puede seleccionar Siguiente para cargar todos los archivos de la carpeta seleccionada. Si desea cargar en un archivo específico, seleccione ese archivo en el listado antes de seleccionar Siguiente.
Las cuentas de almacenamiento de nube también admiten archivos JSON y Parquet. Los archivos de parquet deben ser compatibles con XDM, mientras que los archivos JSON no necesitan ser compatibles con XDM. Para ingestar archivos JSON o Parquet, seleccione el formato de archivo adecuado en el navegador de directorios y aplique un formato de datos compatible desde la interfaz correcta.
Si el formato de datos está en JSON, aparecerá una previsualización que mostrará información sobre los datos del archivo. En la pantalla previsualización, puede seleccionar si JSON es compatible con XDM mediante la lista desplegable compatible con XDM .
Seleccione Siguiente para continuar.
A diferencia de los tipos de archivos delimitados y JSON, los archivos con formato de parquet no están disponibles para la previsualización.
Aparece el paso Asignación , que proporciona una interfaz interactiva para asignar los datos de origen a un Platform conjunto de datos. Los archivos de origen formateados en Parquet deben ser compatibles con XDM y no requieren que configure manualmente la asignación, mientras que los archivos CSV requieren que configure explícitamente la asignación, pero permiten elegir los campos de datos de origen que se asignarán. Los archivos JSON, si se marcan como una queja XDM, no requieren configuración manual. Sin embargo, si no está marcado como compatible con XDM, deberá configurar explícitamente la asignación.
Elija un conjunto de datos para los datos de entrada en los que se van a ingerir. Puede usar un conjunto de datos existente o crear uno nuevo.
Usar un conjunto de datos existente
Para ingerir datos en un conjunto de datos existente, seleccione Conjunto de datos existente y, a continuación, seleccione el icono de conjunto de datos.
Aparece el cuadro de diálogo Seleccionar conjunto de datos . Busque el conjunto de datos que desee utilizar, selecciónelo y haga clic en Continuar.
Usar un nuevo conjunto de datos
Para ingestar datos en un nuevo conjunto de datos, seleccione Nuevo conjunto de datos e introduzca un nombre y una descripción para el conjunto de datos en los campos proporcionados. Para agregar un esquema, puede introducir un nombre de esquema existente en el cuadro de diálogo Seleccionar esquema . También puede seleccionar la búsqueda avanzada de Esquema para buscar un esquema adecuado.
Durante este paso, puede habilitar el conjunto de datos Real-time Customer Profile y crear una vista holística de los atributos y comportamientos de una entidad. Se incluirán los datos de todos los conjuntos de datos habilitados Profile y se aplicarán los cambios al guardar el flujo de datos.
Alterne el botón Perfil dataset para habilitar el conjunto de datos de destinatario para Profile.
Aparecerá el cuadro de diálogo Seleccionar esquema . Seleccione el esquema que desea aplicar al nuevo conjunto de datos y, a continuación, seleccione Listo.
En función de sus necesidades, puede elegir asignar los campos directamente o utilizar funciones de asignador para transformar los datos de origen para derivar valores calculados o calculados. Para obtener más información sobre la asignación de datos y las funciones del asignador, consulte el tutorial sobre la asignación de datos CSV a camposde esquema XDM.
Para archivos JSON, además de asignar campos directamente a otros campos, puede asignar objetos directamente a otros objetos y matrices a otras matrices.
Tenga en cuenta que no puede asignar distintos tipos. Por ejemplo, no se puede asignar un objeto a una matriz ni un campo a un objeto.
Platform proporciona recomendaciones inteligentes para campos asignados automáticamente en función del esquema de destinatario o del conjunto de datos que haya seleccionado. Puede ajustar manualmente las reglas de asignación para adaptarlas a sus casos de uso.
Seleccione los datos de Previsualización para ver los resultados de asignación de hasta 100 filas de datos de muestra del conjunto de datos seleccionado.
Durante la previsualización, se da prioridad a la columna de identidad como primer campo, ya que es la información clave necesaria para validar los resultados de la asignación.
Una vez asignados los datos de origen, seleccione Cerrar.
Aparece el paso Programación , que le permite configurar una programación de ingestión para ingestar automáticamente los datos de origen seleccionados mediante las asignaciones configuradas. La siguiente tabla describe los diferentes campos configurables para la programación:
Campo | Descripción |
---|---|
Frecuencia | Las frecuencias seleccionables incluyen Once , Minute , Hour , Day y Week . |
Intervalo | Un entero que establece el intervalo para la frecuencia seleccionada. |
Tiempo de inicio | Marca de hora UTC que indica cuándo se produce la primera ingestión. |
Rellenar | Un valor booleano que determina qué datos se ingieren inicialmente. Si Rellenar está activado, todos los archivos actuales de la ruta especificada se ingerirán durante la primera ingestión programada. Si Rellenar está desactivado, solo se ingerirán los archivos que se carguen entre la primera ejecución de la ingesta y el tiempo de inicio. Los archivos cargados antes de la hora de inicio no se ingieren. |
Los flujos de datos están diseñados para transferir datos automáticamente en forma programada. Inicio seleccionando la frecuencia de ingestión. A continuación, configure el intervalo para designar el período entre dos ejecuciones de flujo. El valor del intervalo debe ser un entero distinto de cero y debe establecerse en bueno o igual a 15.
Para establecer la hora de inicio para la ingestión, ajuste la fecha y la hora que se muestran en el cuadro de hora del inicio. También puede seleccionar el icono de calendario para editar el valor de tiempo del inicio. La hora de inicio debe ser buena o igual a la hora actual en UTC.
Proporcione valores para la programación y seleccione Siguiente.
Para configurar la ingestión de una sola vez, seleccione la flecha desplegable de frecuencia y seleccione Una vez. Puede seguir editando en un conjunto de flujos de datos para una ingestión de frecuencia única, siempre y cuando el tiempo de inicio permanezca en el futuro. Una vez transcurrido el tiempo de inicio, ya no se puede editar el valor de frecuencia de una sola vez. El intervalo y el relleno no están visibles al configurar un flujo de datos de ingestión único.
Una vez que haya proporcionado los valores adecuados a la programación, seleccione Siguiente.
Aparece el paso de detalles de flujo de datos, que le permite asignar un nombre y una breve descripción del nuevo flujo de datos.
Durante este proceso, también puede activar los diagnósticos de ingestión parcial y de error. La activación de la ingestión parcial permite ingestar datos que contengan errores, hasta un umbral determinado que se pueda establecer. Al habilitar los diagnósticos de error se proporcionarán detalles sobre los datos incorrectos que se agrupan por lotes por separado. Para obtener más información, consulte la información general sobre la ingestión parcial de lotes.
Proporcione valores para el flujo de datos y seleccione Siguiente.
Aparece el paso Revisar , que le permite revisar el nuevo flujo de datos antes de crearlo. Los detalles se agrupan en las siguientes categorías:
Una vez que haya revisado el flujo de datos, haga clic en Finalizar y permita que se cree el flujo de datos.
Una vez creado el flujo de datos, puede monitorear los datos que se están ingeriendo a través de él para ver información sobre tasas de ingestión, éxito y errores. Para obtener más información sobre cómo supervisar el flujo de datos, consulte el tutorial sobre la supervisión de cuentas y flujos de datos en la interfaz de usuario.
Puede eliminar flujos de datos que ya no sean necesarios o que se hayan creado incorrectamente mediante la función Eliminar disponible en el espacio de trabajo Flujos de datos. Para obtener más información sobre cómo eliminar flujos de datos, consulte el tutorial sobre la eliminación de flujos de datos en la interfaz de usuario.
Siguiendo este tutorial, ha creado correctamente un flujo de datos para traer datos de un almacenamiento de nube externo y ha adquirido una perspectiva sobre la supervisión de conjuntos de datos. Para obtener más información sobre la creación de flujos de datos, puede complementar su aprendizaje viendo el siguiente vídeo. Además, los datos entrantes ahora pueden ser utilizados por servicios de flujo Platform descendente como Real-time Customer Profile y Data Science Workspace. Consulte los siguientes documentos para obtener más información:
La interfaz de usuario que Platform se muestra en el siguiente vídeo no está actualizada. Consulte la documentación anterior para obtener las capturas de pantalla y la funcionalidad más recientes de la interfaz de usuario.
Las secciones siguientes proporcionan información adicional para trabajar con conectores de origen.
Cuando se crea un flujo de datos, se activa inmediatamente y se ingieren datos según la programación que se le haya dado. Puede desactivar un flujo de datos activo en cualquier momento siguiendo las instrucciones que se indican a continuación.
En el espacio de trabajo Fuentes , haga clic en la ficha Examinar . A continuación, haga clic en el nombre de la cuenta asociada al flujo de datos activo que desea deshabilitar.
Aparece la página actividad de origen. Seleccione el flujo de datos activo de la lista para abrir su columna Propiedades en el lado derecho de la pantalla, que contiene un botón de alternancia Habilitado . Haga clic en el botón de alternancia para deshabilitar el flujo de datos. Se puede utilizar la misma opción para volver a habilitar un flujo de datos después de desactivarlo.
Los datos entrantes del conector de origen se pueden utilizar para enriquecer y rellenar Real-time Customer Profile los datos. Para obtener más información sobre cómo rellenar Real-time Customer Profile los datos, consulte el tutorial sobre población dePerfiles.