国内ではデジタル化の進展とともに市場の成熟化が加速しており、多くの企業でDXの実現が求められています。DXを実現するためには最先端のデジタル技術が不可欠であり、中でも重要課題となるのが、機械学習の戦略的活用です。本記事では、機械学習の基本的な知識や代表的なアルゴリズムなどについて解説します。
機械学習とは
「機械学習」は、AI技術に内包されるコンピュータアルゴリズムのひとつで、「マシンラーニング」とも呼ばれます。機械学習は学習能力に特化したAI技術であり、データセットの関係性や特徴量のパターンを学習し、各種情報を自動的に分析できる点が大きな特徴です。詳細は後述しますが、「教師あり学習」「教師なし学習」「強化学習」という3つのレベルがあり、それぞれが異なる種類の問題解決に使用されます。
AI(人工知能)との違い
AIは「人工知能」と和訳される計算機科学の一分野であり、言語理解や認知、判断、予測といった人間的な知的活動をコンピュータ上で再現することを目的とします。
一般社団法人 人工知能学会では、人工知能研究の第一人者ジョン・マッカーシー教授が提唱するAIの定義を、「知的なコンピュータプログラムを作る科学と技術(※1)」と訳しています。そして、「物事を学習して法則化する」という人間特有の知的能力をコンピュータ上で再現するコンピュータアルゴリズムが、機械学習です。つまり機械学習は、AIというコンピュータサイエンスの大枠に含まれる技術のひとつとなります。
(※1)参照元:人工知能のFAQ|一般社団法人人工知能学会
ディープラーニング(深層学習)との違い
「ディープラーニング(深層学習)」は、機械学習に含まれるモデルのひとつです。
機械学習には、脳神経系のニューロンを数理モデル化した「ニューラルネットワーク」が存在します。ニューラルネットワークは入力層と出力層の間に中間層を設けており、中間層が増えるほど未知の事象や複雑なパターン認識に対応できます。このニューラルネットワークを多層化することで得た、より高度な機械学習モデルが、ディープラーニングです。
つまり、ディープラーニングは多層のニューラルネットワークを用いた機械学習モデルという関係性になります。
機械学習の手法とは? それぞれの活用例とアルゴリズム
冒頭で述べたように、機械学習には「教師あり学習」「教師なし学習」「強化学習」と呼ばれる3つのレベルが存在します。ここでは、それぞれの活用例と主なアルゴリズムについて解説します。
教師あり学習
教師あり学習とは、特徴量と正解データをもとに学習する機械学習モデルです。
特徴量とは、特徴を数値化した、その値を指します。例としては、身長や体重、食事摂取量などがあげられます。教師あり学習は、あらかじめ正解となるデータを用意するため、特徴量と正解の間にある関係性やパターンを発見しやすく、学習速度も比較的早いという特徴があります。
教師あり学習の活用例
教師あり学習は、正解となるデータセットに基づく正誤判定を得意とする機械学習モデルです。例えば、「正常な状態」と「異常な状態」のデータセットを学習させることで、どのような状態が本来在るべき姿かを自動的に判別できます。主に画像認識技術による検品や言語の機械翻訳、自然言語処理などで活用される機械学習モデルであり、先述したニューラルネットワークとディープラーニングは教師あり学習を発展させたAI技術です。
教師あり学習に使用されているアルゴリズムの例
- サポートベクターマシン
サポートベクターマシンは、正解データに基づいて境界性を設定し、入力されたデータを分類する手法です。データを線形分類または非線形分類するという特性から、画像認識やテキスト分類などで用いられます。 - 決定木
決定木は、トップに特定の要素を据え、樹形状に要素を細分化しながらデータを整理・分析します。入力データから数値を予測する回帰問題や、データをカテゴリー分けする分類問題で使用されるアルゴリズムです。 - ランダムフォレスト
ランダムフォレストは、複数の決定木を組み合わせて回帰や分類を実行するアルゴリズムです。特徴量をランダムに選び出して複数の決定木を生成し、各項目の平均から特定の数値を算出します。
教師なし学習
教師なし学習とは、正解ラベルのない特徴量のみを学習データとする機械学習モデルです。正解のないデータセットから特定のパターンや関係性などを発見し、背後に存在する本質的な構造を抽出するために用いられます。
教師なし学習の活用例
教師なし学習は正解となるデータがないため、正誤の判定や関係性の定義といった領域には原則として対応できません。しかし、特徴量の共通項を導き出して対象をグルーピングしたり、膨大なデータ群から逸脱している異常値のみを検出したりする分野に長けています。例えば、「産業機械や設備機器などの異常を自動的に検知する」「特徴量を学習することでオリジナルの画像データを生成する」といった領域で活用される機械学習モデルです。
教師なし学習に使用されているアルゴリズムの例
- GAN(敵対的生成ネットワーク)
GANは、正解ラベルのない特徴量から特定のパターンを学習し、新しいデータを生成するアルゴリズムです。例えば、入力された複数の画像データを分析して新しい画像を作成したり、入力されたプロンプトから画像を生成したりできます。 - 主成分分析
主成分分析は、多数の特徴量を少ない指標や変数に要約する分析手法を指します。例えば、「身長」と「体重」という2次元データを「BMI」という1次元データに変換する手法が代表的であり、データの圧縮や可視化といった領域で活用されるアルゴリズムです。 - クラスタリング
クラスタリングは、未知のデータの特徴量を分析してグルーピングするアルゴリズムです。正常値と異常値の両方をもつ正解ラベルのないデータを分類できるため、設備保全における異常検知のような分野で用いられます。 - アソシエーション分析
アソシエーション分析は、大量の特徴量から類似性や規則性を導き出す分析手法を指します。正解のないデータから「Aという条件ならBが発生する」といった仮説を立て、パターンや相関関係を発見するような領域を得意とするアルゴリズムです。
強化学習
強化学習とは、AIが試行錯誤しながら学習能力を高めていく機械学習モデルです。出力されたデータに対するスコアをフィードバックし、どのような行動が成果の最大化につながるかを自らが学習していきます。
強化学習の活用例
強化学習は、教師あり学習や教師なし学習のように事前に用意されたデータセットを使用しません。ある行動に対する評価と報酬をパラメータとしてセットし、その評価と報酬が最大になるような行動を試行錯誤しながら選択していきます。このような特性から、「最善手を導き出す」という領域を得意としており、将棋や囲碁、チェスなどのゲームAIや、自動車の自動運転やロボットの歩行制御といった分野で活用されている機械学習モデルです。
強化学習に使用されているアルゴリズムの例
- Q-Learning
Q-Learningは、データの最適化を目的とするアルゴリズムです。「状態」「行動」「報酬」の価値関数を更新することで学習を強化し、試行錯誤を繰り返しながら、それぞれの最適化を図ります。 - SARSA
SARSAはQ-Learningと同じく、評価と報酬を最大化するための行動を学習するアルゴリズムです。Q-Learningは「最大のQ値」に基づいて次の行動を更新するのに対し、SARSAは次の行動における最適解を考慮してQ値を更新するため、より不確実な環境での動作に向いています。 - モンテカルロ法
モンテカルロ法は、数学的な期待値をシミュレーションで求める分析手法です。強化学習の領域では、特定の行動を繰り返しながら獲得した報酬に基づいて価値関数を学習し、行動価値や状態価値の最大化を図るためのアルゴリズムとして用いられます。
まとめ
機械学習は、人間特有の知的活動をコンピュータ上で再現するAI分野における技術のひとつです。特定のデータに内包される特徴量を分析し、そこからデータセットの関係性やパターンなどを導き出します。機械学習には「教師あり学習」「教師なし学習」「強化学習」があり、それぞれが異なる特性をもっているため、課題や問題に適した手法を選択することが大切です。
DXを実現するためにはAIやIoT、クラウドといったデジタル技術の戦略的活用が欠かせません。CTCでは、デジタル活用や経営改革を総合的に支援するデジタルソリューションを提供しています。新しい時代に即した経営体制の構築を目指す企業は、CTCが提供する各種ソリューションの導入をぜひご検討ください。
- カテゴリ:
- デジタルビジネス全般