课程概况
機械学習モデルの精度を高める方法や、特に有効な特徴を抽出するためのデータ列の見極め方を知りたい人におすすめのコースです。Feature Engineering on Google Cloud Platform では、良い特徴と悪い特徴の要素について、また、機械学習モデルで最適に使用できるように、特徴を前処理して変換する方法についても取り上げます。
このコースでは実践演習として、インタラクティブなラボを使用し、Google Cloud Platform 内で特徴を選択して前処理を行います。インストラクターが解答のコードについて説明します。解答のコードは、今後、皆さんが自身の ML プロジェクトに取り組む際に参照できるよう、一般公開される予定です。
课程大纲
はじめに
ML モデルの精度を高める方法や、特に有効な特徴を抽出するためのデータ列の見極め方を知りたい方におすすめのコースです。Feature Engineeringでは、良い特徴と悪い特徴について、また、モデルで最適に使用できるように、特徴を前処理して変換する方法についても取り上げます。
生データから特徴への変換
特徴エンジニアリングは、ML プロジェクトの構築において、最も長く、困難になることが多いフェーズです。特徴エンジニアリングでは、まず生データを使い、対象領域の知識を活用して、機械学習アルゴリズムを機能させるための特徴を作成します。このモジュールでは、良い特徴の条件と、ML モデルで特徴を表現する方法を検討します。
前処理と特徴の作成
モジュールのこのセクションでは、前処理と特徴の作成について説明します。この 2 つは、機械学習システム用の特徴セットの準備に役立つデータ前処理テクニックです。
特徴断面
従来の機械学習では、特徴断面はそれほど大きな役割を果たしていませんでした。しかし、今日の ML 方式では、特徴断面は非常に重要なツールキットの 1 つです。このモジュールでは、どのような問題において特徴断面が機械学習に役立つかを学びます。
TF Transform
TensorFlow Transform(tf.Transform)は、TensorFlow でのデータの前処理に使用するライブラリです。tf.Transform は、データ全体を渡す必要がある前処理を行う場合に役立ちます。たとえば、平均値と標準偏差による入力値の正規化、値のすべての入力例を検査することによるボキャブラリの整数化、観測されたデータ分散に基づく入力のバケット化などです。このモジュールでは、tf.Transform の用途を検討します。
まとめ
特徴エンジニアリングの各モジュールで学習した主な内容は次のとおりです。良い特徴の選択、大規模な前処理、特徴断面の使用、TensorFlow の実践演習。