Reenvío de registros: otros (carga manual) log-forwarding-other
El método de aprovisionamiento Otro BYOCDN es una opción general para los clientes que desean proporcionar registros de CDN a LLM Optimizer cuando:
- Se prefieren cargas manuales: por ejemplo, los equipos operativos exportan los registros y los cargan periódicamente.
- Se utilizan procesos automatizados ad hoc: scripts únicos, exportaciones programadas, trabajos sin servidor.
- El cliente utiliza una CDN que no es compatible de forma nativa con las integraciones de reenvío de registros integradas.
Este método imita el modelo de “reenvío continuo”: los registros se generan y se cargan en la ubicación S3 prevista y, finalmente, son procesados automáticamente por las canalizaciones de ingesta.
Paso 1: Incorporación en LLM Optimizer step-1
En LLM Optimizer:
-
Vaya a Configuración
-
Haga clic en la pestaña Configuración de la CDN.
-
Haga clic en Empezar.
-
Junto a Activar perspectivas de tráfico de IA, haga clic en Configurar.
-
Seleccione Otros.
-
Haga clic en Incorporar.
Paso 2: Preparar y cargar los registros step-2
Formato de registro obligatorio (líneas JSON) log-format
Los registros deben cargarse en formato JSON delimitado por saltos de línea (un objeto JSON por línea). Cada línea de registro debe incluir los siguientes campos tal y como se indica a continuación.
Esquema campo por campo schema
"2025-02-01T23:00:05Z""www.example.com""/home?utm_source=google""GET""Mozilla/5.0 (compatible; GPTBot/1.0""https://chatgpt.com"200"text/html; charset=utf-8"42Ejemplo de líneas de registro example
En el siguiente ejemplo se muestran tres líneas de registro:
{"timestamp":"2025-02-01T23:06:14Z","host":"www.example.com","url":"/products/llm-optimizer?utm_source=google","request_method":"GET","request_user_agent":"Mozilla/5.0 (compatible; GPTBot/1.0; +https://openai.com/gptbot)","response_status":200,"request_referer":"","response_content_type":"text/html; charset=utf-8","time_to_first_byte":198}
{"timestamp":"2025-02-01T23:19:32Z","host":"www.example.com","url":"/services/ai-consulting/overview","request_method":"GET","request_user_agent":"PerplexityBot/1.0 (+https://www.perplexity.ai/perplexitybot)","response_status":200,"request_referer":"","response_content_type":"text/html; charset=utf-8","time_to_first_byte":255}
{"timestamp":"2025-02-01T23:44:05Z","host":"www.example.com","url":"/products/pricing/enterprise?utm_medium=social","request_method":"GET","request_user_agent":"ClaudeBot/1.0 (+https://www.anthropic.com)","response_status":200,"request_referer":"","response_content_type":"application/pdf","time_to_first_byte":312}
Descargo de responsabilidad crítico (ortografía y tipos) disclaimer
Las canalizaciones de ingesta y agregación son estrictas sobre los nombres de campo y tipos de datos.
-
Los nombres de campo deben coincidir exactamente (mayúsculas y minúsculas y ortografía).
-
Los tipos de datos deben ser correctos, tal como se indica a continuación:
- timestamp debe ser una cadena con formato ISO 8601. Es posible que las marcas de tiempo similares a UNIX no funcionen.
- response_status debe ser un número entero.
- time_to_first_byte debe ser un número entero y utilzar milisegundos.
- Las cadenas deben ser cadenas JSON válidas.
-
Un JSON con formato incorrecto o campos que falten o son incorrectos pueden provocar que los registros se omitan o no se analicen, lo que daría lugar a la pérdida de datos en los informes.
Ubicación de la carga y cadencia de procesamiento upload-location
Regla de ruta path-rule
Cargue los registros en la ruta de acceso de la carpeta correspondiente con el formato: yyyy/mm/dd/ (con barras diagonales).
Un registro de ejemplo del 1 de febrero de 2025 UTC: ABC123AdobeOrg/raw/byocdn-other/2025/02/01/
Regla de procesamiento processing-rule
- Las canalizaciones procesan los registros cargados durante un día UTC determinado cerca del final de ese día UTC (ejecución diaria).
- Los registros cargados en carpetas de días anteriores (relleno) se detectan y procesan en un plazo de 24 horas.
Escenarios scenarios
Escenario 1: registros en Splunk/Elasticsearch: exportar y cargar en S3 scenario-splunk
Meta: recuperar los registros de plataformas de observabilidad existentes y enviarlos a la ubicación S3.
- Extraiga los campos obligatorios de los eventos de búsqueda de Splunk/Elastic.
- Transforme cada evento en un objeto JSON siguiendo el esquema anterior (líneas JSON).
- Cargue el o los archivos resultantes en el bloque designado de S3 y la ruta de acceso día UTC actual:
…/byocdn-other/yyyy/mm/dd/ - Los registros se procesarán automáticamente al final del día UTC.
Escenario 2: función Lambda/Azure: formatear y cargar en S3 scenario-serverless
Meta: utilizar el equipo sin servidor para recuperar o recibir registros de CDN, normalizarlos y enviarlos a la ubicación S3.
- La función recupera registros de la fuente del cliente (almacén de registros, cola, almacenamiento de los blob, etc.).
- La función asigna campos al esquema previsto y emite Líneas JSON.
- La función carga el resultado en:
…/byocdn-other/yyyy/mm/dd/ - Los registros se procesarán automáticamente al final del día UTC.
Lista de comprobación rápida checklist
- Un objeto JSON por línea (líneas JSON)
- Ortografía exacta del campo según lo especificado
- Tipos de datos correctos
- time_to_first_byte en milisegundos (entero)
- Cargar en la carpeta UTC apropiada: dd/mm/aaaa/ en byocdn-other