Functietechniek SQL-extensie
Om aan uw eigenschaptechnische behoeften te voldoen, gebruik de SQL transformatoruitbreiding om uw gegevens te vereenvoudigen en te automatiseren preprocessing. Gebruik deze extensie om functies te bouwen en probleemloos te experimenteren met verschillende technieken voor functietechnieken, waaronder het koppelen van deze eigenschappen aan modellen. Ontworpen voor gedistribueerde gegevensverwerking, kunt u eigenschapengineering op grote datasets op een parallelle en scalable manier uitvoeren, beduidend verminderend de tijd die voor gegevens wordt vereist preprocessing met de de eigenschapengineering SQL van Distiller van Gegevens uitbreiding.
Overzicht van technieken technique-overview
De mogelijkheden voor functietechniek bestrijken drie hoofdgebieden: de Extractie van functies, de Transformatie van functies en de Selectie van functies. Elk gebied bevat specifieke functies die zijn ontworpen voor het ophalen, omzetten, scherpstellen en verbeteren van de gegevensvoorbewerking.
Functie extraheren feature-extraction
Haal relevante informatie uit uw gegevens, vooral tekstgegevens, en zet het in een numeriek formaat om dat de gesteunde modellen kunnen verbruiken of omzetten en datasets afleiden. Gebruik de volgende functies om functie-extractie uit te voeren:
- Textual Transformer: Zet tekstuele gegevens in numerieke eigenschappen om.
- Vectorizer van de Telling: Transformeer een inzameling van tekstdocumenten in vectoren van symbolische tellingen.
- n-gram: produceer opeenvolgingen van n-grammen van tekstgegevens.
- Woorden van het Einde verwijderen: Filter gemeenschappelijke woorden uit die geen significante betekenis hebben.
- TF-IDF: Meet het belang van woorden in een document met betrekking tot een corpus.
- Tokenizer: Breek onderaan tekst in individuele termijnen (woorden).
- Word2Vec: De woorden van de kaart aan vaste - groottevectoren en leiden woordinbedingen.
Eigenschaptransformatie feature-transformation
Naast het extraheren van eigenschappen, gebruik de volgende algemene transformatoren om uw eigenschappen voor geavanceerde statistische modellen en afgeleide datasets voor te bereiden. Pas schalen, normaliseren of coderen toe om ervoor te zorgen dat de functies op dezelfde schaal worden uitgevoerd en een vergelijkbare distributie hebben.
Algemene transformatoren
Hieronder vindt u een lijst met gereedschappen voor het verwerken van een groot aantal gegevenstypen om de workflow voor het voorbewerken van gegevens te verbeteren.
- Numerieke Imputer: Vul ontbrekende waarden in numerieke kolommen met een gespecificeerde waarde, zoals het gemiddelde of mediaan.
- Imputer van het Koord: Vervang ontbrekende koordwaarden met een gespecificeerde waarde, zoals het meest frequente koord in de kolom.
- VectorAssembler: Combineer veelvoudige kolommen in één enkele vectorkolom om gegevens voor machine het leren modellen voor te bereiden.
- Imputer Van Boole: Vul ontbrekende booleaanse waarden met een gespecificeerde waarde, zoals
true
offalse
.
Numerieke transformatoren
Pas deze technieken toe om numerieke gegevens effectief te verwerken en te schalen voor verbeterde modelprestaties.
- Binarizer: Zet ononderbroken eigenschappen in binaire waarden om die op een drempel worden gebaseerd.
- Bucketizer: De ononderbroken eigenschappen van de kaart in discrete emmers.
- Min-Max Scaler: De eigenschappen van het opnieuw schalen aan een gespecificeerde waaier, typisch [ 0, 1 ].
- Max Abs Scaler: De eigenschappen van Rescale aan waaier [ - 1, 1 ] zonder onveranderlijke flexibiliteit.
- Normalizer: Normaliseer vectoren om eenheidsnorm te hebben.
- Kwandige Discretizer: Zet ononderbroken eigenschappen in categoriale eigenschappen door hen in hoeveelheden te binden.
- Standaard Scaler: Normaliseer eigenschappen om een eenheidsstandaardafwijking en/of nul gemiddelde te hebben.
Categorische transformatoren
Gebruik deze transformatoren om categoriale gegevens om te zetten en te coderen in indelingen die geschikt zijn voor modellen voor machinaal leren.
- Indexer van het Koord: Zet categoriale koordgegevens in numerieke indexen om.
- Één Hete Codeur: De categoriale gegevens van de kaart in binaire vectoren.
Functie selecteren feature-selection
Selecteer vervolgens een subset met de belangrijkste functies uit de oorspronkelijke set. Dit proces helpt de afmeting van uw gegevens te verminderen, waardoor het voor uw modellen gemakkelijker wordt om te verwerken en algemene modelprestaties te verbeteren.
De OPTIONS-clausule implementeren options-clause
Wanneer u uw model definieert, gebruikt u de component OPTIONS
om het algoritme en de bijbehorende parameters op te geven. Stel eerst de parameter type
in om het algoritme aan te geven dat u gebruikt, zoals K-Means
. Vervolgens definieert u de relevante parameters in de OPTIONS
-component als sleutel-waardeparen om uw model te perfectioneren. Als u ervoor kiest om bepaalde parameters niet aan te passen, past het systeem standaardinstellingen toe. Raadpleeg de relevante documentatie voor een beter begrip van de functie en standaardwaarden van elke parameter.
Volgende stappen
Na het leren van de technieken van de eigenschaptechniek die in dit document worden geschetst, vooruitgang op het Modellendocument. Het begeleidt u door het proces van het creëren, de opleiding, en het beheren van vertrouwde modellen gebruikend de eigenschappen u hebt ontworpen. Zodra uw modellen worden gebouwd, ga aan te werk voert geavanceerde statistische modellendocument uit.. Dit document fungeert als een overzicht, dat is gekoppeld aan diepgaande hulplijnen voor verschillende modelleringstechnieken, waaronder clustering, classificatie en regressie. Door deze documenten te volgen, leert u om diverse vertrouwde modellen binnen uw SQL werkschema's te vormen en uit te voeren en uw modellen voor geavanceerde gegevensanalyse te optimaliseren.