Belangrijke functies van hyperkubussen
Hyperkubussen bieden verschillende krachtige functies om de efficiëntie en flexibiliteit van gegevensanalyse te verbeteren.
- Aantal unieke gebruikers of verschillende vragen: SQL van het gebruik mogelijkheden om unieke tellingen van gebruikers te produceren die met diverse afmetingen van gegevens, zoals productmeningen, plaatsbezoeken, of handelsactiviteit interactie aangaan, zonder herhaaldelijk het opnieuw analyseren van ruwe gegevens.
- Incrementele verwerking: Voer stijgende updates uit om gegevenspunten over dimensies en tijd te voeden en samen te voegen zonder alles van kras opnieuw te berekenen.
- Multidimensionale analyse: De hyperkubussen laten multi-dimensionaal filtreren en het herschikken van gegevens toe om summiere rijen tot stand te brengen die combinaties van dimensies vertegenwoordigen. Deze samenvattingen kunnen dan worden gebruikt om inzichten met minimale berekeningsoverheadkosten te produceren.
Gebruik hoofdletters/kleine letters voor hyperkubussen
Met hyperkubussen kunt u op efficiënte wijze duidelijke tellingen genereren voor verschillende gebruikersinteracties zonder dat de gegevens telkens opnieuw worden berekend. Hieronder volgen enkele praktische scenario's voor het gebruik ervan:
- Analyseer unieke bezoekers die specifieke producten tijdens een bepaalde tijdsperiode bekijken.
- Identificeer gebruikers die in een bepaalde periode met meerdere producten in wisselwerking staan om cross-sell analyse te verbeteren.
- Duidelijk gebruikers die met één product maar niet een andere in tijd werken om voorkeurspatronen te ontdekken.
- Combineer online en off-line interactiegegevens om een uitvoerige mening van gebruikersgedrag over een bepaalde periode te krijgen.
- Houd gebruikersbewegingen bij verschillende activiteiten binnen een gebeurtenis om de lay-out en services te optimaliseren.
Voordelen van het gebruik van hyperkubussen
In deze situaties kunt u basisgegevens vooraf berekenen voor specifieke categorieën. Nochtans, wanneer het analyseren van gegevens over veelvoudige dimensies en tijdsperioden, moet u of alles van ruwe gegevens opnieuw berekenen of een hyperkubus van de Dienst van de Vraag gebruiken. Hyperkubussen stroomlijnen het proces door gegevens efficiënt te ordenen, wat flexibele filtering en multidimensionale analyse zonder opwerking mogelijk maakt. Zij gebruiken geavanceerde functies om resultaten snel en nauwkeurig te schatten om zeer belangrijke voordelen zoals betere verwerkingsefficiency, scalability, en aanpassingsvermogen voor complexe analytische taken aan te bieden.
Efficiëntie voor gegevensgrootte voor queryverwerking
De Dienst van de vraag kan miljoenen of miljarden gegevenspunten (bijvoorbeeld, gebruiker IDs) in een compacte vorm samenpersen genoemd een schets. Deze schets heeft een beduidend gereduceerde gegevensgrootte voor vraagverwerking, die scalability handhaaft en het veel gemakkelijker en sneller maakt om met te werken. Hoe groot de oorspronkelijke gegevens ook zijn, de grootte van de schets blijft klein, waardoor het analyseren van grote gegevens veel beheerbaarder en efficiënter wordt.
In het onderstaande diagram ziet u hoe Commerce, Product Info en Web Dimension ExperienceEvents worden verwerkt in schetsen, die vervolgens worden gebruikt om unieke aantallen te benaderen.
Schetsen samenvoegen om gegevensanalyse sneller en eenvoudiger te maken
U voorkomt herberekening en verbeterde verwerkingssnelheid door schetsen van verschillende categorieën of groepen samen te voegen. De Dienst van de vraag vereenvoudigt ook het ontwerp door uw gegevens in een hyperkubus te organiseren, waar elke rij een samenvatting van zijn verdeling (een inzameling van afmetingen) naast de schetskolom wordt. Elke rij van de hyperkubus bevat de dimensiecombinatie maar heeft geen onbewerkte gegevens. Wanneer het uitvoeren van een vraag, specificeer de dimensionele kolommen u voor de bouw van additieve metriek wilt gebruiken en de schetsen voor die rijen samenvoegen.
Kosteneffectiviteit
De gegevens van de klant zijn vaak grootschalig, maar u kunt de behoefte elimineren om historische gegevens door stijgende verwerking te gebruiken opnieuw te verwerken. Schetsen zijn veel kleiner en bieden snellere, real-time resultaten en besparen tegelijk op computerbronnen en kosten. Deze gegevenstransformatie maakt interactieve vragen uitvoerbaarder en efficiënter.
Overzicht functies
In deze sectie wordt beschreven hoe elke functie gegevensverwerking optimaliseert en analytische mogelijkheden verbetert door efficiënt gebruik van schetsen en hyperkubussen. Het detailleert hun doel, voorbeeldsyntaxis, parameters, en verwachte output.
Unieke telschattingen maken met HLL-schetsen
hll_build_agg
is een geaggregeerde functie die een HLL-schets (HyperLogLog) maakt. Deze functie is een compacte, probabilistische methode om het aantal unieke waarden binnen een kolom of een uitdrukking in een gegroepeerde dataset te schatten.