機能エンジニアリング SQL拡張機能
機能エンジニアリングのニーズを満たすために、SQL トランスフォーマ拡張機能を使用してデータ前処理を簡素化および自動化します。 この拡張機能を使用して機能を構築し、モデルとの関連付けなど、様々な機能エンジニアリング手法をシームレスに試すことができます。 分散コンピューティング向けに設計されており、大規模なデータセットに対して並列かつスケーラブルな方法で機能エンジニアリングを実行でき、Data Distiller機能エンジニアリング SQL拡張機能を使用してデータ前処理に必要な時間を大幅に短縮できます。
テクニックの概要 technique-overview
機能エンジニアリング機能は、機能抽出、機能変換、機能選択の3つの主要な領域をカバーしています。 各領域には、データの前処理を抽出、変換、フォーカス、改善するために設計された特定の機能が含まれています。
特徴抽出 feature-extraction
データ、特にテキストデータから関連情報を抽出し、サポートされているモデルがデータセットを使用または変換して導き出すことができる数値形式に変換します。 特徴量の抽出を実行するには、次の関数を使用します。
- テキストトランスフォーマ:テキストデータを数値の特徴に変換します。
- ベクターをカウント: テキストドキュメントのコレクションをトークン数のベクターに変換します。
- N-gram: テキストデータからn-gram シーケンスを生成します。
- ストップワードリムーバー:重要な意味を持たない一般的な単語をフィルタリングします。
- TF-IDF: コーパスに対する文書内の単語の重要度を測定します。
- Tokenizer: テキストを個別の用語(単語)に分割します。
- Word2Vec:単語を固定サイズのベクターにマッピングし、単語の埋め込みを作成します。
機能変換 feature-transformation
フィーチャを抽出するだけでなく、次の一般的なトランスフォーマを使用して、高度な統計モデルと派生データセットのフィーチャを準備します。 スケーリング、正規化、エンコーディングを適用して、機能が同じスケールで、分布が似ていることを確認します。
汎用トランスフォーマ
ここでは、データ前処理ワークフローを強化するために、さまざまなデータタイプを処理できるツールの一覧を示します。
- 数値インピュター:数値列の欠落している値を、平均や中央値など、指定した値で入力します。
- 文字列インピュター:欠落している文字列値を、列の最も頻繁な文字列など、指定された値に置き換えます。
- ベクターアセンブラー:複数の列を1つのベクター列に結合して、機械学習モデル用のデータを準備します。
- ブール値インピュター:指定された値(
trueやfalseなど)を使用して、不足しているブール値を入力します。
数値トランスフォーマ
これらの手法を適用して、数値データを効果的に処理および拡張し、モデルのパフォーマンスを向上させます。
- Binarizer:連続的な特徴を、しきい値に基づいてバイナリ値に変換します。
- Bucketizer:連続するフィーチャを個別のバケットにマッピングします。
- Min-Max Scaler:機能を指定された範囲(通常は[0、1])に再スケールします。
- Max Abs Scaler:スパースを変更せずに[-1, 1]の範囲に機能を再スケールします。
- Normalizer: ベクトルを単位法線に正規化します。
- 分位数ディスクリタイザー:連続的な特徴を分位数に連結してカテゴリ分けの特徴に変換します。
- 標準スケーラー: フィーチャを正規化して、単位標準偏差を持たせたり、平均を0にしたりします。
カテゴリ変圧器
これらのトランスフォーマーを使用して、カテゴリデータを変換し、マシンラーニングモデルに適した形式にエンコードします。
- 文字列インデクサー:カテゴリ文字列データを数値インデックスに変換します。
- 1つのHot Encoder:カテゴリ データをバイナリ ベクトルにマッピングします。
機能の選択 feature-selection
次に、元のセットから最も重要な機能のサブセットを選択することに焦点を当てます。 このプロセスは、データの次元を下げるのに役立ち、モデルが処理しやすくなり、モデル全体のパフォーマンスが向上します。
OPTIONS条項の導入 options-clause
モデルを定義する場合、OPTIONS句を使用して、アルゴリズムとそのパラメーターを指定します。 最初に、type パラメーターを設定して、使用しているアルゴリズム(K-Meansなど)を示します。 次に、OPTIONS句の関連パラメーターをキーと値のペアとして定義して、モデルを微調整します。 特定のパラメーターをカスタマイズしない場合は、デフォルト設定が適用されます。 各パラメーターの関数とデフォルト値については、関連するドキュメントを参照してください。
次の手順
このドキュメントで概説した機能エンジニアリング手法を学習したら、 モデル のドキュメントに進みます。 設計した機能を使用して、信頼できるモデルの作成、トレーニング、管理のプロセスをガイドします。 モデルを作成したら、高度な統計モデルの実装ドキュメントに進みます。をインストールします。このドキュメントは、クラスタリング、分類、回帰など、様々なモデリング手法の詳細なガイドにリンクする概要として機能します。 これらのドキュメントに従うことで、SQL ワークフロー内で様々な信頼できるモデルを設定および実装し、高度なデータ分析のためにモデルを最適化する方法を学習します。