Eigenschaptransformatie
Naast het extraheren van eigenschappen, gebruik de volgende algemene transformatoren om uw eigenschappen voor geavanceerde statistische modellen en afgeleide datasets voor te bereiden. Pas schalen, normaliseren of coderen toe om ervoor te zorgen dat de functies op dezelfde schaal worden uitgevoerd en een vergelijkbare distributie hebben.
Algemene transformatoren
Hieronder vindt u een lijst met gereedschappen voor het verwerken van een groot aantal gegevenstypen om de workflow voor het voorbewerken van gegevens te verbeteren.
- Numerieke Imputer: Vul ontbrekende waarden in numerieke kolommen met een gespecificeerde waarde, zoals het gemiddelde of mediaan.
- Imputer van het Koord: Vervang ontbrekende koordwaarden met een gespecificeerde waarde, zoals het meest frequente koord in de kolom.
- VectorAssembler: Combineer veelvoudige kolommen in één enkele vectorkolom om gegevens voor machine het leren modellen voor te bereiden.
- Imputer Van Boole: Vul ontbrekende booleaanse waarden met een gespecificeerde waarde, zoals
true
offalse
.
Numerieke transformatoren
Pas deze technieken toe om numerieke gegevens effectief te verwerken en te schalen voor verbeterde modelprestaties.
- Binarizer: Zet ononderbroken eigenschappen in binaire waarden om die op een drempel worden gebaseerd.
- Bucketizer: De ononderbroken eigenschappen van de kaart in discrete emmers.
- Min-Max Scaler: De eigenschappen van het opnieuw schalen aan een gespecificeerde waaier, typisch [ 0, 1 ].
- Max Abs Scaler: De eigenschappen van Rescale aan waaier [ - 1, 1 ] zonder onveranderlijke flexibiliteit.
- Normalizer: Normaliseer vectoren om eenheidsnorm te hebben.
- Kwandige Discretizer: Zet ononderbroken eigenschappen in categoriale eigenschappen door hen in hoeveelheden te binden.
- Standaard Scaler: Normaliseer eigenschappen om een eenheidsstandaardafwijking en/of nul gemiddelde te hebben.
Categorische transformatoren
Gebruik deze transformatoren om categoriale gegevens om te zetten en te coderen in indelingen die geschikt zijn voor modellen voor machinaal leren.
- Indexer van het Koord: Zet categoriale koordgegevens in numerieke indexen om.
- Één Hete Codeur: De categoriale gegevens van de kaart in binaire vectoren.
Functie selecteren
Selecteer vervolgens een subset met de belangrijkste functies uit de oorspronkelijke set. Dit proces helpt de afmeting van uw gegevens te verminderen, waardoor het voor uw modellen gemakkelijker wordt om te verwerken en algemene modelprestaties te verbeteren.
De OPTIONS-clausule implementeren
Wanneer u uw model definieert, gebruikt u de component OPTIONS
om het algoritme en de bijbehorende parameters op te geven. Stel eerst de parameter type
in om het algoritme aan te geven dat u gebruikt, zoals K-Means
. Vervolgens definieert u de relevante parameters in de OPTIONS
-component als sleutel-waardeparen om uw model te perfectioneren. Als u ervoor kiest om bepaalde parameters niet aan te passen, past het systeem standaardinstellingen toe. Raadpleeg de relevante documentatie voor een beter begrip van de functie en standaardwaarden van elke parameter.
Volgende stappen
Na het leren van de technieken van de eigenschaptechniek die in dit document worden geschetst, vooruitgang op het Modellendocument. Het begeleidt u door het proces van het creëren, de opleiding, en het beheren van vertrouwde modellen gebruikend de eigenschappen u hebt ontworpen. Zodra uw modellen worden gebouwd, ga aan te werk voert geavanceerde statistische modellendocument uit.. Dit document fungeert als een overzicht, dat is gekoppeld aan diepgaande hulplijnen voor verschillende modelleringstechnieken, waaronder clustering, classificatie en regressie. Door deze documenten te volgen, leert u om diverse vertrouwde modellen binnen uw SQL werkschema's te vormen en uit te voeren en uw modellen voor geavanceerde gegevensanalyse te optimaliseren.