Inoltro dei registri: altro (caricamento manuale) log-forwarding-other
Il metodo di provisioning Altro BYOCDN è un’opzione onnicomprensiva per chi desidera fornire i registri CDN a LLM Optimizer nei seguenti casi:
- Si preferiscono i caricamenti manuali: ad esempio, i team operativi esportano i registri e li caricano periodicamente.
- Si utilizzano processi automatizzati ad hoc: script una tantum, esportazioni pianificate, processi senza server.
- Il cliente utilizza una CDN non supportata in modo nativo dalle integrazioni di inoltro dei registri incorporate.
Questo metodo imita il modello di “inoltro continuo”: i registri vengono prodotti e caricati nella posizione S3 prevista e infine elaborati in automatico dalle pipeline di acquisizione.
Passaggio 1: eseguire l’onboarding in LLM Optimizer step-1
In LLM Optimizer:
-
Passa a Configurazione.
-
Fai clic sulla scheda Configurazione CDN.
-
Fai clic su Inizia.
-
Accanto ad Attiva analisi traffico IA, fai clic su Configura.
-
Seleziona Altro.
-
Fai clic su Esegui onboarding.
Passaggio 2: preparare e caricare i registri step-2
Formato registro obbligatorio (righe JSON) log-format
I registri devono essere caricati come JSON delimitato da nuova riga (un oggetto JSON per riga). Ogni riga di registro deve includere i seguenti campi esattamente come sono stati scritti di seguito.
Schema campo per campo schema
"2025-02-01T23:00:05Z""www.example.com""/home?utm_source=google""GET""Mozilla/5.0 (compatible; GPTBot/1.0""https://chatgpt.com"200"text/html; charset=utf-8"42Esempio di righe di registro example
L’esempio che segue mostra tre righe di registro:
{"timestamp":"2025-02-01T23:06:14Z","host":"www.example.com","url":"/products/llm-optimizer?utm_source=google","request_method":"GET","request_user_agent":"Mozilla/5.0 (compatible; GPTBot/1.0; +https://openai.com/gptbot)","response_status":200,"request_referer":"","response_content_type":"text/html; charset=utf-8","time_to_first_byte":198}
{"timestamp":"2025-02-01T23:19:32Z","host":"www.example.com","url":"/services/ai-consulting/overview","request_method":"GET","request_user_agent":"PerplexityBot/1.0 (+https://www.perplexity.ai/perplexitybot)","response_status":200,"request_referer":"","response_content_type":"text/html; charset=utf-8","time_to_first_byte":255}
{"timestamp":"2025-02-01T23:44:05Z","host":"www.example.com","url":"/products/pricing/enterprise?utm_medium=social","request_method":"GET","request_user_agent":"ClaudeBot/1.0 (+https://www.anthropic.com)","response_status":200,"request_referer":"","response_content_type":"application/pdf","time_to_first_byte":312}
Dichiarazione di non responsabilità critica (ortografia e tipi) disclaimer
Le pipeline di acquisizione e aggregazione sono rigorose per i nomi dei campi e i tipi di dati.
-
I nomi dei campi devono corrispondere esattamente (maiuscole/minuscole e ortografia).
-
I tipi di dati devono essere corretti, come segue:
- timestamp deve essere una stringa in formato ISO 8601. Le marche temporali basate su UNIX potrebbero non funzionare.
- response_status deve essere un numero intero.
- time_to_first_byte deve essere un numero intero e utilizzare i millisecondi.
- Le stringhe devono essere stringhe JSON valide.
-
Il formato JSON non valido o i campi mancanti/errati possono causare l’omissione o l’impossibilità di analizzare i registri, con conseguente mancanza di dati nei rapporti.
Percorso di caricamento e frequenza di elaborazione upload-location
Regola del percorso path-rule
Carica i registri nel percorso della cartella appropriato utilizzando il formato: yyyy/mm/dd/ (con barre).
Un esempio di registro dal 1° febbraio 2025 UTC: ABC123AdobeOrg/raw/byocdn-other/2025/02/01/
Regola di elaborazione processing-rule
- I registri caricati durante un determinato giorno UTC vengono elaborati dalle pipeline verso la fine di quel giorno UTC (esecuzione giornaliera).
- I registri caricati nelle cartelle dei giorni precedenti (retrocompilazione) sono rilevati ed elaborati entro 24 ore.
Scenari scenarios
Scenario 1: registri di Splunk/Elasticsearch - Esportazione e caricamento in S3 scenario-splunk
Obiettivo: recuperare i registri dalle piattaforme di osservabilità esistenti e distribuirli alla posizione S3.
- Estrai i campi richiesti dagli eventi di ricerca Splunk/Elastic.
- Trasforma ogni evento in un oggetto JSON seguendo lo schema precedente (righe JSON).
- Carica i file risultanti nel bucket S3 designato e nel percorso del giorno UTC corrente:
…/byocdn-other/yyyy/mm/dd/ - I registri saranno elaborati automaticamente entro la fine del giorno UTC.
Scenario 2: funzione Lambda/Azure - Formattazione e caricamento su S3 scenario-serverless
Obiettivo: utilizzare il calcolo senza server per recuperare/ricevere i registri CDN, normalizzarli e consegnarli alla posizione S3.
- La funzione recupera i registri dall’origine del cliente (archivio registri, coda, archiviazione BLOB, ecc.).
- La funzione mappa i campi nello schema previsto ed emette righe JSON.
- La funzione carica l’output in:
…/byocdn-other/yyyy/mm/dd/ - I registri saranno elaborati automaticamente entro la fine del giorno UTC.
Elenco di controllo rapido checklist
- Un oggetto JSON per riga (righe JSON)
- Ortografia precisa del campo come specificato
- Correzione tipi di dati
- time_to_first_byte in millisecondi (numero intero)
- Caricamento nella cartella UTC appropriata: aaaa/mm/gg/ in byocdn-other