Información general de Catalog Service

Catalog Service es el sistema de registro para la ubicación y el linaje de datos dentro de Adobe Experience Platform. Mientras que todos los datos que se incorporan en Experience Platform se almacenan en Data Lake como archivos y directorios, Catalog contiene los metadatos y la descripción de esos archivos y directorios con fines de búsqueda y supervisión.

En pocas palabras, Catalog actúa como un almacén de metadatos o "catálogo" en el que puede encontrar información acerca de sus datos dentro de Experience Platform. Puede usar Catalog para responder a las siguientes preguntas:

  • ¿Dónde se encuentran mis datos?
  • ¿En qué fase del procesamiento se encuentran estos datos?
  • ¿Qué sistemas o procesos han actuado en mis datos?
  • ¿Cuántos datos se procesaron correctamente?
  • ¿Qué errores se han producido durante el procesamiento?

Catalog proporciona una API RESTful que le permite administrar mediante programación los metadatos de Platform mediante operaciones básicas de CRUD. Consulte la Guía para desarrolladores de catálogos para obtener más información.

Catalog y Experience Platform servicios

Varios servicios de Experience Platform utilizan los recursos que Catalog Service rastrea. Para aprovechar al máximo las capacidades de Catalog’s, se recomienda que se familiarice con estos servicios y cómo interactúan con Catalog.

Sistema Experience Data Model (XDM)

El sistema Experience Data Model (XDM) es el marco estandarizado mediante el cual Platform organiza los datos de experiencia del cliente. Experience Platform aprovecha los esquemas XDM para describir la estructura de los datos de una manera uniforme y reutilizable.

Cuando se incorporan datos en Platform, la estructura de esos datos se asigna a un esquema XDM y se almacena dentro de Data Lake como parte de un conjunto de datos. Catalog Service realiza el seguimiento de los metadatos de cada conjunto de datos, lo que incluye una referencia al esquema XDM al que se ajusta el conjunto de datos.

Para obtener más información general sobre el sistema XDM, consulte la descripción general del sistema XDM.

Data Ingestion

Experience Platform ingiere datos de varios orígenes y conserva registros como conjuntos de datos dentro de Data Lake. Catalog realiza el seguimiento de los metadatos de estos conjuntos de datos, independientemente de su origen o método de ingesta.

Al utilizar el método de ingesta por lotes, Catalog también realiza un seguimiento de los metadatos adicionales de los archivos por lotes. Los lotes son unidades de datos compuestas por uno o más archivos que se van a introducir como una sola unidad. Catalog realiza el seguimiento de los metadatos de estos archivos por lotes, así como de los conjuntos de datos en los que se mantienen después de la ingesta. Los metadatos por lotes incluyen información sobre el número de registros ingeridos correctamente, así como sobre los registros con errores y los mensajes de error asociados.

Consulte la descripción general de la ingesta de datos para obtener más información.

Catalog objetos

Como se describe en la sección anterior, Catalog realiza un seguimiento de los metadatos de varios tipos de recursos y operaciones que utilizan otros servicios de Platform. Catalog mantiene su propio almacén de "objetos" que encapsulan estos metadatos. Los objetos Catalog son representaciones consultables de datos Platform que le permiten buscar, supervisar y etiquetar sus datos sin necesidad de tener acceso a los propios datos.

En la tabla siguiente se describen los diferentes tipos de objetos admitidos por Catalog:

Objeto
Extremo de API
Definición
Lote
/batches
Los lotes son unidades de datos compuestas por uno o más archivos que se van a introducir como una sola unidad. Un objeto batch de Catalog describe las métricas de ingesta del lote (como el número de registros procesados o el tamaño en el disco) y también puede incluir vínculos a conjuntos de datos, vistas y otros recursos afectados por la operación por lotes.
Conjunto de datos
/dataSets
Un conjunto de datos es una construcción de almacenamiento y administración que se utiliza para recopilar datos (normalmente una tabla) que contiene un esquema (columnas) y campos (filas). Consulte la descripción general de conjuntos de datos para obtener más información.
Archivo de conjunto de datos
/datasetFiles
Los archivos de conjuntos de datos representan bloques de datos que se guardaron en Platform. Como registros de archivos literales, aquí es donde puede encontrar el tamaño del archivo, el número de registros que contiene y una referencia al lote que ingerió el archivo.

Pasos siguientes

Este documento proporciona una introducción a Catalog Service y cómo funciona dentro del ámbito mayor de Experience Platform. Consulte la Catalog guía para desarrolladores para ver los pasos que debe seguir para interactuar con los diferentes extremos de esa API de Catalog. Se recomienda que también consulte la guía sobre filtrado de datos de catálogo para seguir las prácticas recomendadas y limitar los datos devueltos en las respuestas de API.

recommendation-more-help
c5c02be6-79a3-4a2f-b766-136bffe8b676