Acceder a metadatos por lotes

Para asegurarse de que las columnas del sistema (columnas de metadatos) se incluyen en los resultados de la consulta, utilice el comando SQL set drop_system_columns=false en el Editor de consultas. Esto configura el comportamiento de la sesión de consulta SQL. Esta entrada debe repetirse si se inicia una nueva sesión.

A continuación, para ver los campos del sistema del conjunto de datos, ejecute una instrucción SELECT all para mostrar los resultados del conjunto de datos, por ejemplo select * from movie_data. Los resultados incluyen dos nuevas columnas en el lado derecho _acp_system_metadata y _ACP_BATCHID. Las columnas de metadatos _acp_system_metadata y _ACP_BATCHID ayudan a identificar las particiones lógicas y físicas de los datos ingeridos.

Interfaz de usuario de DBVisualizer con la tabla movie_data y sus columnas de metadatos mostradas y resaltadas.

Cuando se incorporan datos en Experience Platform, se les asigna una partición lógica basada en los datos entrantes. Esta partición lógica está representada por _acp_system_metadata.sourceBatchId. Este ID ayuda a agrupar e identificar los lotes de datos de forma lógica antes de procesarlos y almacenarlos.

Una vez que los datos se procesan e incorporan en el lago de datos, se les asigna una partición física representada por _ACP_BATCHID. Este ID refleja la partición de almacenamiento real del lago de datos en el que residen los datos introducidos.

Utilice SQL para comprender las particiones lógicas y físicas

Para comprender mejor cómo se agrupan y distribuyen los datos después de la ingesta, utilice la siguiente consulta para contar el número de particiones físicas distintas (_ACP_BATCHID) para cada partición lógica (_acp_system_metadata.sourceBatchId).

SELECT  _acp_system_metadata, COUNT(DISTINCT _ACP_BATCHID) FROM movie_data
GROUP BY _acp_system_metadata

Los resultados de esta consulta se muestran en la siguiente imagen.

Los resultados de una consulta para mostrar el número de particiones físicas distintas para cada partición lógica.

Estos resultados demuestran que el número de lotes de entrada no coincide necesariamente con el número de lotes de salida, ya que el sistema determina la forma más eficaz de procesar por lotes y almacenar los datos en el lago de datos.

Para el propósito de este ejemplo, se supone que ha ingerido un archivo CSV en Experience Platform y ha creado un conjunto de datos denominado drug_checkout_data.

El archivo drug_checkout_data es un conjunto de 35.000 registros profundamente anidados. Utilice la instrucción SQL SELECT * FROM drug_orders; para obtener una vista previa del primer conjunto de registros en el conjunto de datos drug_orders basado en JSON.

La siguiente imagen muestra una previsualización del archivo y sus registros.

Vista previa del primer conjunto de registros en el conjunto de datos Drug_orders basado en JSON.