機械学習の分類と回帰
機械学習では、大きく「教師あり学習」「教師なし学習」「強化学習」の3種類の学習の手法があります。「教師あり学習」が最も身近な学習方法で、さらに用途に応じて「分類」あるいは「回帰」によって学習が行われます。
ここでは、機械学習の概要とともに、これら学習手法の違いを解説していきます。
機械学習の概要
機械学習は、人工知能の実現方法の1種です。機械やコンピュータに対象とするデータを読み込んで学習させ、ルールやパターンを導きます。この導いたルールやパターンを活用して、社会で必要な様々な分野の課題の解決に役立てることができます。
機械学習のように、人間の介在なしに機械的に実行することができれば人間の負担が減るとともに、高速で高性能かつ高精度に処理を行うことが可能です。これまでの経験則に任せていた領域も、科学的に最適な結果を導くことが可能になります。
機械学習と人工知能の違い
機械学習の説明をする上で前提となるのが、人工知能です。人工知能は、人間が備えている記憶や知識などの知的な行為や蓄積を、コンピュータの手続き・アルゴリズムに基づき所定のデータを与えることで、機械的に実行することを研究する領域です。
機械学習は人工知能の1種で、学習方法を定義し機械的に学習させるために過去の蓄積データからパターンを認識したり、将来の予測を行ったりするための技法を指します。
人工知能が機械学習を包含しており、さらに機械学習はニューラルネットワークやディープラーニング(深層学習)を内包しているという関係性があります。
機械学習の学習技法の種類
機械学習の学習技法やアルゴリズムは、数多くあります。よく聞く用語では、ニューラルネットワークやディープラーニングがあります。これらの用語も機械学習の1つで、それぞれの学習技法があります。
ニューラルネットワークは、処理単位である数理モデルがネットワーク上に結合したものです。生物の神経系ネットワークに着想を得て発展を続ける技法です。接続するユニットの数や階層構造などによってさらに様々なモデルが提唱されています。
ディープラーニングは、ニューラルネットワークの階層構造を多層にしたモデルで、主に4層以上の深層のニューラルネットワークを狭義のディープラーニングと呼びます。この多層のニューラルネットワークは、音声や画像、そして自然言語に強みを発揮します。
そのため、その後登場した大規模言語モデルにおいても、ディープラーニングが実装基盤に用いられています。
機械学習のタスクの種類と学習方法
機械学習では、タスクという用語が使われます。タスクとは、コンピュータの処理すべき課題の単位として用いられ、プロジェクトで定義するタスクと同等の考え方です。
機械学習の場合は、課題解決の進め方で分類されており、代表的なタスクは「教師あり学習」「教師なし学習」「強化学習」の3種類に分けられます。
教師あり学習
教師あり学習は、入力と対応する出力を、機械学習のアルゴリズムに与えて学習を進める方法です。あらかじめ正解がわかっているものを覚えこませることで効率的に学習を進めます。例えば、イヌやネコの写真を学習し、画像認識に活用するなどがあります。
また電子メールが迷惑メールかどうかなどを判断するセキュリティ対策にも用いられています。
教師あり学習についてはここでは概要までとし、後ほどもう少し詳細に解説していきます。
教師なし学習
教師なし学習は、「教師あり学習」と対となる学習方法で、学習データに正解を与えない状態でコンピュータに学習させる方法です。データの類似度などに基づいてグルーピングしたり、データの特徴からあらたなデータを生成したりします。
この学習方法は、正解がない考え方を調査するのに用いることが多く、例えば市場調査の購買分析や行動分析などに用います。
主に統計的手法から成るアルゴリズムを、学習に用います。学習データを似ている者同士に分類するクラスタリングや、統計学上の目的変数を表す説明変数を圧縮する次元圧縮、データの中から一定の法則を見つけ出す主成分分析などの手法を用います。
教師なし学習は、正解が与えられていないので人間が妥当性を判断する必要があります。そのため、判断を担当する人は学習データに関する知識が求められます。
強化学習
強化学習は、入力から学ぶのではなく、その価値を最大化させることに力点をおく手法です。ある行動を行うことで、その価値を入力としてデータを更新するQ学習などの手法があります。
教師あり学習や教師なし学習とは異なり、強化学習は事前に準備するデータセットに依存しません。実際の環境で動的に変化する状況でも、収集したデータを試行錯誤し学習を続けていきます。
以上の特徴から、人間の監視下にない状態でも学習を行うことができます。カメラのピント合わせやセンサーへの導入、ロボットや自動車の自動運転などに利用されています。
教師あり学習をさらに詳しく
教師あり学習は、機械学習のタスクで最も用いられる手法です。正解があらかじめ分かるものが対象ですので、データの示す特徴が、正解に近いかどうかで適合の可能性を予測することができます。
統計学では、ある現象や値を説明するものを説明変数、それを受けて生じた結果を目的変数と言います。用いるデータで表すと、顔やシルエットなどの画像や音声などが説明変数で、特定の人物かどうか判断することを目的変数とすることができます。
ここで用いるのが、分類問題と回帰問題です。使用するモデルによって手法が決まりますので、フローチャート化することも可能です。
教師データとは
教師データとは、教師あり学習で使用するデータの集合体(データセット)を表す用語です。教師データは、教師あり学習で用いる「正解」と「例題」のペアの集合体で、この教師データの例題を入力したときに、正解のデータが出力されるように、モデルの訓練を行います。
モデルの訓練が完了すると、例題を入力すると正解が出力されるようになり、未知のデータを入力したときに正解に近い結果を予測することができます。
分類問題および分類とは
分類問題とは、どの分類クラスに属するかを目的変数とし、予測する方法を表します。あらかじめ定義した分類クラスにデータを振り分け、予測することを、「分類」と言い、結果を導く仕組みを「分類モデル」と言います。
例えば、入力したデータが人物なのかそうでないのか、イヌなのかそうでないのか、ネコなのかどうでないのか、などを分類します。このように「そうなのか(YES)」「そうでないのか(NO)」の2つに分類することを二値分類と言います。
また画像の例では、目なのか、鼻なのか、口なのかなど、3つ以上の分類になる場合は、多値分類で表されます。
この分類づけは、数値的な重みづけはなく、どの分類に当てはまるかのみが予測されるため「ラベル」という場合もあります。分類のアルゴリズムは、ベイズの定理を用いた「ナイーブベイズ法」や、「K 近傍法」などが用いられます。
回帰問題および回帰とは
回帰問題とは、数値的に目的変数を予測する方法を表します。分類問題は数値的な重み付けがありませんが、回帰問題では数値に意味合いを持つ点に違いがあります。
連続するデータの傾向から、将来の値を予測することを、「回帰」と言い、結果を導く仕組みを「回帰モデル」と言います。加えて、結果となる数値と要因となる数値から、関係を明らかにする手法を回帰分析と言います。要因となる説明変数が1つの場合が「単回帰分析」、複数ある場合を「重回帰分析」と言います。
例えば、今後の気象予報から店舗の売り上げを予測したり、模擬試験の結果と傾向から志望校への合格確率を予測したりすることができます。マーケティングなどでも、広告宣伝費のかけ方と売り上げ効果を予測する際にも一般的に用いる手法です。
予測結果の評価
教師あり学習では、正解を与える手法のため、予測結果が正解に近いかどうか評価することができます。評価する場合は、教師データの正解に基づくデータと、予測した評価データとを比較します。この評価方法を交差検証法と言い、「k分割法」と「ホールドアウト法」の手法があります。
「k分割法」は、学習データを分割し、分割した回数分の検証を繰り返す手法です。訓練データ群に1つの評価データを入れてモデルの当てはまりを確認します。「ホールドアウト法」は、データセットを学習データと検証データに分割して検証する方法です。
学習データとテストデータから最終の予測モデルを構築します。
回帰分析の場合は、回帰式により求められた値と実際の値について相関関係を確認します。相関係数および相関係数の二乗値である決定係数を確認し、より1に近いほど回帰式による予測が実際の値に近いことが分かります。
過学習とは
予測結果の評価において学習済みのモデルが正しい場合でも、未知のデータを用いる場合には結果が適合しない場合があります。過学習とは、この状態を表します。あまりにも教師データに適合するように調整してしまうと、それ以外のデータが入力された場合にこのようなことが起きてしまいます。
例えば、模擬試験で合格水準の方でも勉強時間とテスト結果が比例しなかったり、得意な分野や不得意な分野に偏って出題されたりするとモデルの精度が落ちてしまいます。
意思決定で用いる「決定木」のアルゴリズムでは、特に過学習となりやすいため、「ランダムフォレスト」などのアルゴリズムを検討するのが良いでしょう。
機械学習の分類と回帰は分析や予測の基礎となります
ここでは、機械学習の「教師あり学習」を中心に学んできました。「教師あり学習」は多くの場面で活用されており、「分類」と「回帰」でアルゴリズムが表されます。分類と回帰は、数値解析や統計解析などの基礎となりますので、ここで学んだ内容は多くの場面で活用することができるでしょう。
編集部オススメコンテンツ
アンドエンジニアへの取材依頼、情報提供などはこちらから