Hantera lagring av Experience Event-datauppsättningar i datavjön med hjälp av TTL
Effektiv datahantering är avgörande för optimala prestanda, kostnadskontroll och dataintegritet. Använd Experience Event Data Retention Time-To-Live (TTL) för att framtvinga utgångsdatum på radnivå och automatiskt ta bort föråldrade poster från datauppsättningar i datasjön samtidigt som optimal lagringseffektivitet och datarelevans garanteras.
I den här handboken beskrivs hur du utvärderar, ställer in och hanterar TTL med hjälp av katalogtjänstens API. Du får lära dig när och varför du ska använda TTL, hur du konfigurerar och uppdaterar TTL-värden med API-anrop och bästa praxis för att säkerställa en effektiv implementering.
Varför använda TTL för datahantering på radnivå
I takt med att datauppsättningarna växer blir effektiv datahantering allt viktigare för att bevara prestanda, hålla kostnaderna i schack och för att hålla data relevanta. TTL-baserade data på radnivå som förfaller automatiserar datarensningen genom att ta bort inaktuella poster utan manuell åtgärd för att optimera lagringen och förbättra systemets effektivitet.
TTL är användbart vid hantering av tidskänsliga data som blir mindre relevanta över tid. Överväg att implementera TTL om du behöver:
- Minska lagringskostnaderna genom att automatiskt ta bort inaktuella poster.
- Förbättra frågeprestanda genom att minimera irrelevanta data.
- Upprätthåll datahygien genom att endast lagra relevant information.
- Optimera datalagringen för att stödja affärsmålen.
Använd TTL-konfigurationer för att optimera lagring baserat på berättiganden. Data från Profile Store (används i Real-Time CDP) kan anses vara inaktuella och tas bort efter 30 dagar, men samma händelsedata i datasjön kan vara tillgängliga i 12-13 månader (eller längre baserat på tillstånd) för analyser och dataanvändning i Distiller.
Branschexempel industry-example
Som ett exempel kan vi titta på en direktuppspelningstjänst för video som spårar användarinteraktioner, till exempel videovyer, sökningar och rekommendationer. Även om aktuella engagemangsdata är avgörande för personalisering förlorar äldre aktivitetsloggar (till exempel interaktioner från över ett år sedan) relevansen. Genom att använda radnivåförfallodatum tar Experience Platform automatiskt bort inaktuella loggar och ser till att endast aktuella och meningsfulla data används för analyser och rekommendationer.
Utvärdera TTL-lämplighet evaluate-ttl-suitability
Innan du tillämpar en kvarhållningsprincip måste du bedöma om datauppsättningen är en bra kandidat för radförfallodatum. Tänk på följande:
- Datarelevans över tid: Tillhandahåller äldre data ett värde eller blir det föråldrat?
- Påverkan på processerna längre fram i kedjan: Kommer borttagning av data att påverka rapportering, analys eller integreringar?
- Lagringskostnad kontra lagringsvärde: Beväger värdet av äldre data kostnaden för att lagra dem?
Om historiska uppgifter är väsentliga för långtidsanalys eller affärstransaktioner är TTL kanske inte rätt metod. Genom att granska dessa faktorer ser du till att TTL-värdet anpassas efter dina datalagringsbehov utan att datatillgängligheten påverkas negativt.
Bästa tillvägagångssätt för att ange TTL best-practices
Välj rätt TTL-värde för att säkerställa att din Experience Event Data Retention-princip balanserar datalagring, lagringseffektivitet och analysbehov. En TTL som är för kort kan orsaka dataförlust, medan en som är för lång kan öka lagringskostnaderna och onödig datainsamling. Se till att TTL-värdet är anpassat efter datauppsättningens syfte genom att fundera på hur ofta data ska användas och hur länge de ska vara relevanta.
Tabellen nedan innehåller vanliga TTL-rekommendationer baserade på datamängdstyp och användningsmönster:
Granska TTL-inställningarna regelbundet för att säkerställa att de fortsätter att vara i linje med dina lagringspolicyer, analytiska behov och affärskrav.
Viktiga överväganden vid inställning av TTL key-considerations
Följ dessa metodtips för att se till att TTL-inställningarna är anpassade efter din datalagringsstrategi:
- Granska TTL-ändringar regelbundet. Varje TTL-uppdatering utlöser en granskningshändelse. Använd granskningsloggar för att spåra TTL-ändringar för regelefterlevnad, datastyrning och felsökning.
- Inaktivera TTL om data måste behållas i oändlighet. Om du vill inaktivera TTL anger du
ttlValue
tillnull
. Detta förhindrar automatiskt förfallodatum och bevarar alla poster permanent. Tänk på lagringskonsekvenserna innan du gör den här ändringen.
Begränsningar för TTL limitations
Tänk på följande begränsningar när du använder TTL:
- Upplev kvarhållande av händelsedatauppsättningar med TTL gäller för radnivåförfallodatum, inte för borttagning av datauppsättningar. TTL tar bort poster baserat på en definierad kvarhållningsperiod, men tar inte bort hela datauppsättningar. Om du vill ta bort en datauppsättning använder du slutpunkten för datauppsättningens förfallodatum eller tar bort manuellt.
- TTL-konfigurationen är aktiv tills explicit inaktiverad. Konfigurationen gäller tills du inaktiverar den. Om du inaktiverar TTL upphör giltigheten och alla poster i datauppsättningen behålls.
- TTL är inte ett kompatibilitetsverktyg. TTL optimerar lagring och livscykelhantering, men ni måste implementera bredare strategier för styrning för att säkerställa regelefterlevnad.
Analysera datauppsättningens storlek och relevans innan du använder TTL analyze-dataset-size
Innan du använder TTL bör du använda frågor för att analysera datauppsättningens storlek och relevans. Kör riktade frågor (till exempel inventeringsposter inom specifika datumintervall) för att förhandsgranska effekten av olika TTL-värden. Använd sedan den här informationen för att välja en optimal lagringsperiod som balanserar datamöjligheter och kostnadseffektivitet.
Genom att köra riktade frågor kan du avgöra hur mycket data som ska behållas eller tas bort under olika TTL-konfigurationer. I följande SQL-fråga räknas till exempel antalet poster som har skapats under de senaste 30 dagarna:
SELECT COUNT(1) FROM [datasetName] WHERE timestamp > date_sub(now(), INTERVAL 30 DAY);
Genom att köra liknande frågor för olika tidsintervall kan du validera TTL-inställningarna och se till att de balanserar lagringseffektivitet och datatillgänglighet.
Kom igång med TTL-hantering
Innan du kan utvärdera, ange och hantera lagring av Experience Event-datauppsättningar med hjälp av API:t för katalogtjänsten måste du förstå hur du formaterar dina begäranden på rätt sätt. Detta innefattar att känna till API-sökvägarna, tillhandahålla nödvändiga huvuden och formatera nyttolaster för begäranden. Information om detta finns i API:t för att komma igång för katalogtjänsten.
Kontrollera dina TTL-begränsningar check-ttl-constraints
Använd Data Hygiene API:t /ttl/{DATASET_ID}
för att planera TTL-konfigurationer. Den här slutpunkten returnerar de lägsta och högsta TTL-värden som stöds för din organisation, tillsammans med det rekommenderade värdet (defaultValue
) för datamängdstypen.
Mer information finns i dokumentationen för Adobe Developer Data Hygiene API .
Om du vill kontrollera TTL-värdet som används för en datamängd gör du en GET-begäran till katalogtjänstens API /dataSets/{DATASET_ID}
-slutpunkt i stället.
https://platform.adobe.io/data/foundation/catalog
. Bassökvägen för API:t för datahygien är: https://platform.adobe.io/data/core/hygiene
API-format
GET /ttl/{DATASET_ID}
{DATASET_ID}
/datasets
om du vill hitta ett datauppsättnings-ID. I listan med katalogobjekts-API:t finns anvisningar om hur du filtrerar svar för relevanta datauppsättningar.Begäran
Följande begäran hämtar organisationens TTL-begränsningar för en viss datauppsättning.
curl -X GET \
'https://platform.adobe.io/data/foundation/catalog/ttl/{DATASET_ID}' \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-H 'x-sandbox-name: {SANDBOX_NAME}'
-H 'x-sandbox-id: {SANDBOX_ID}'
Svar
Ett lyckat svar returnerar de rekommenderade, högsta och lägsta TTL-värdena baserat på organisationens berättiganden, tillsammans med en föreslagen TTL (defaultValue
) för datauppsättningen. defaultValue
är en rekommenderad TTL-varaktighet, endast som vägledning. Den tillämpas inte om den inte uttryckligen har konfigurerats av dig. Svaret innehåller inga anpassade TTL-värden som redan har angetts. Använd GET /catalog/dataSets/{DATASET_ID}
-slutpunkten om du vill visa aktuell TTL för en datauppsättning.
code language-json |
---|
|
defaultValue
maxValue
P10Y
).minValue
P30D
).Kontrollera använda TTL-värden check-applied-ttl-values
Om du vill kontrollera det aktuella TTL-värdet som har tillämpats på en datauppsättning använder du följande API-anrop:
GET /dataSets/{DATASET_ID}
Det här anropet returnerar aktuell ttlValue
(om den angetts) i avsnittet extensions.adobe_lakeHouse.rowExpiration
.
Begäran
Följande begäran hämtar organisationens TTL-värde för en viss datauppsättning.
curl -X GET \
https://platform.adobe.io/data/foundation/catalog/dataSets/{DATASET_ID} \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-H 'x-sandbox-name: {SANDBOX_NAME}'
Svar
Ett lyckat svar inkluderar objektet extensions
, som innehåller den aktuella TTL-konfigurationen som används för datauppsättningen. Svarsexemplet nedan är förkortat för att vara kortfattat.
{
"{DATASET_ID}": {
"name": "Acme Sales Data",
"description": "This dataset contains sales transaction records for Acme Corporation.",
"imsOrg": "{ORG_ID}",
"sandboxId": "{SANDBOX_ID}",
"extensions": {
"adobe_lakeHouse": {
"rowExpiration": {
"ttlValue": "P3M",
}
}
}
...
}
}
Ange eller uppdatera TTL för en datauppsättning set-update-ttl
https://ns.adobe.com/xdm/data/time-series
).meta:extends
. Mer information om hur du gör detta finns i slutpunktsdokumentationen för schemat.Du kan konfigurera lagring av Experience Event-datauppsättningar genom att ange en ny TTL eller uppdatera en befintlig TTL med samma API-metod. Använd en PATCH-begäran för slutpunkten /v2/datasets/{DATASET_ID}
om du vill använda eller justera TTL.
API-format
PATCH /v2/datasets/{DATASET_ID}
{DATASET_ID}
Begäran
I exemplet nedan är ttlValue
inställt på P3M
. Detta innebär att poster som är äldre än tre månader tas bort automatiskt. Justera kvarhållningsperioden så att den passar ditt företags behov (till exempel P6M
för sex månader eller P12M
för ett år).
curl -X PATCH \
'https://platform.adobe.io/data/foundation/catalog/v2/datasets/{DATASET_ID}' \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'Content-Type: application/json' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-d '{
"extensions": {
"adobe_lakeHouse": {
"rowExpiration": {
"ttlValue": "P3M" // A 3 month retention period
}
}
}
}
rowExpiration.ttlValue
P3M
för 3 månader eller P30D
för 30 dagar).Svar
Ett lyckat svar returnerar en referens till den uppdaterade datauppsättningen, men inkluderar inte TTL-inställningarna explicit. Om du vill bekräfta TTL-konfigurationen gör du en uppföljningsförfrågan GET /dataSets/{DATASET_ID}
.
[
"@/dataSets/{DATASET_ID}"
]
Exempel på scenario example-scenario
Överväg en videoströmningsplattform som inledningsvis ställer in TTL på tre månader för att säkerställa nya engagemangsdata för personalisering. Om ytterligare analyser visar att äldre interaktioner fortfarande ger värdefulla insikter kan TTL-värdet förlängas till sex månader med följande begäran:
curl -X PATCH \
'https://platform.adobe.io/data/foundation/catalog/v2/datasets/{DATASET_ID}' \
-H 'Authorization: Bearer {ACCESS_TOKEN}' \
-H 'Content-Type: application/json' \
-H 'x-api-key: {API_KEY}' \
-H 'x-gw-ims-org-id: {ORG_ID}' \
-d '{
"extensions": {
"adobe_lakeHouse": {
"rowExpiration": {
"ttlValue": "P6M" // Extend to 6 months
}
}
}
}
Vanliga frågor om lagringsprinciper för datauppsättning faqs
Vanliga frågor och svar behandlar praktiska frågor om kvarhållningsjobb för datauppsättningar, omedelbara effekter av TTL-ändringar, återställningsalternativ och hur kvarhållningsperioder skiljer sig mellan olika plattformstjänster.
Vilka typer av datauppsättningar kan jag tillämpa regler för lagringspolicy på?
Du kan tillämpa TTL-baserade bevarandeprinciper på alla datauppsättningar som använder tidsseriebeteende. Detta inkluderar datauppsättningar som baseras på standardklassen för XDM ExperienceEvent, samt anpassade scheman som utformats för att hämta data från tidsserier.
Giltighetstid på radnivå kräver följande tekniska villkor:
- Schemat måste vara utformat för att samla in data från tidsserier.
- Schemat måste innehålla ett tidsstämpelfält som används för att utvärdera förfallodatum.
- Datauppsättningen ska lagra data på händelsenivå, vanligtvis med klassen XDM ExperienceEvent eller som utökning.
- Datauppsättningen måste registreras i katalogtjänsten eftersom TTL-inställningarna tillämpas via
extensions.adobe_lakeHouse.rowExpiration
. - TTL-värden måste använda varaktighetsformatet ISO-8601 (till exempel
P30D
,P6M
,P1Y
).
Hur snart raderas data från sjödatatjänsterna?
Kan jag ange olika bevarandepolicyer för datavinje- och profiltjänster?
note note |
---|
NOTE |
Kvarhållningsperioden för profiltjänsten kan bara uppdateras en gång var 30:e dag. |
Ja, du kan ange olika lagringspolicyer för datalinje- och profiltjänster. Lagringsperioden för profilarkivet kan vara kortare eller längre än den kvarhållningsperiod som gäller för datavjön, beroende på organisationens behov.
Hur kan jag kontrollera min aktuella datauppsättningsanvändning?
Du kan kontrollera den senaste datalagringsstorleken för datasjön och profilarkiv som separata mått på Dataset-lagerarbetsytan. Sortera kolumnerna för att identifiera de största datauppsättningarna och verifiera att kvarhållningsprinciper används.
Mer information om användning på sandlådenivå finns i kontrollpanelen för licensanvändning. Mer information finns i dokumentationen om licensanvändning.
Hur verifierar jag om datalagringsjobbet lyckades?
Du kan verifiera det senaste datalagringsjobbet genom att kontrollera tidsstämpeln i användargränssnittet för datalagringskonfiguration eller på sidan Datalager.
Du kan även göra en GET-begäran till följande slutpunkt:
GET https://platform.adobe.io/data/foundation/catalog/dataSets/{DATASET_ID}
Svaret innehåller egenskapen extensions.adobe_lakeHouse.rowExpiration.lastCompleted
, som anger Unix-tidsstämpeln (i millisekunder) för när det senaste TTL-jobbet slutfördes.
Historiska användningsrapporter för datauppsättningar är inte tillgängliga just nu.
Kan jag återställa borttagna data?
Vilken är den minsta TTL-gräns jag kan konfigurera för en Data Lake Experience Event-datauppsättning?
Hur gör jag om jag behöver behålla vissa datavinefält längre än vad min TTL-policy tillåter?
Använd Data Distiller för att bevara specifika fält utanför datamängdens TTL-värde samtidigt som du håller dig inom användningsgränserna. Skapa ett jobb som regelbundet bara skriver de fält som behövs till en härledd datauppsättning. Det här arbetsflödet säkerställer överensstämmelse med en kortare TTL-gräns samtidigt som viktiga data bevaras för utökad användning.
Mer information finns i Skapa härledda datauppsättningar med SQL-guiden.
Nästa steg next-steps
Nu när du har lärt dig hur du hanterar TTL-inställningar för förfallodatum på radnivå kan du läsa följande dokumentation för att få en bättre förståelse för hur du hanterar TTL:
- Kvarhållningsjobb: Lär dig att schemalägga och automatisera datauppsättningens förfallodatum i Experience Platform-gränssnittet med gränssnittsguiden för datalivscykel, eller kontrollera konfigurationer för kvarhållande av datauppsättningar och verifiera att utgångna poster tas bort.
- API-slutpunktsguide för förfallodatum för datauppsättning: Upptäck hur du tar bort hela datauppsättningar i stället för bara rader. Lär dig hur du schemalägger, hanterar och automatiserar utgångsdatum för datauppsättningar med API:t för att säkerställa effektiv datalagring.
- Översikt över dataanvändningsprinciper: Lär dig hur du anpassar din datalagringsstrategi till bredare efterlevnadskrav och begränsningar för användning av marknadsföringsmaterial.