今さら聞けない機械学習(3)~機械学習ができること

AI /

機械学習、人工知能などの言葉を聞くと、なんでもできてしまう、だって将棋や囲碁だって人間に勝てたじゃないか、という意見も聞こえてくるし、そうお考えの方も多いかも知れない。(将棋、囲碁に使われる強化学習はやや説明が難しいのでここでは割愛する)

もっとシンプルに、機械学習というのは何ができるのだろうか。

実は現在のところ、機械学習にできることは分類問題、回帰問題、クラスタリングの3つしかない。これに異常検出を含める意見が多いが、異常検出も先の3つのどれか、もしくは組み合わせが原理であり、異常検出というのは応用範囲を指しているので少し違和感がある。

分類問題というのは、与えられた学習データから分類基準を学習し、未知のデータをそれらのクラス(カテゴリとも呼ぶが、機械学習の世界ではクラスと言う。プログラム用語のクラスとは異なる)に分類する機能です。電子メールをSPAMメールと必要メールに分類するような機能、と言えばわかりやすいであろうか。手書き文字を認識するのもクラスが膨大にあるだけで、実は分類に他ならない。

回帰問題は数値を予測する問題です。株価の予想のように時系列での処理に使われることも多いが、さまざまな入力データからビールの売上を予測するなどの処理にも使われるものだ。

クラスタリングというのは、データからクラスタ(似た者同士のかたまりと考えてください)を作成し、未知のデータをそのクラスタに分類するものである。クラスタリングは教師なし学習の問題である。さまざまな商品を売っているECサイトがあるとして、その販売データから顧客をいくつかのクラスタ(グループ)に分ける処理を行えるもの、と考えていただいて結構である。

テレビやWEBなどで披露される人工知能というと、コンピュータビジョンを使った複雑な物体検出などがほとんどなので、先述した3つの機能から実現されているとは想像しにくいかも知れない。しかし、実際は画像が数値データ化され学習した後、未知の画像データも数値データ化され学習データから推論し、最後は分類か、回帰か、クラスタリングが行なわれているだけなのでである。

今、機械学習を自分のビジネスに応用したい、と考えたとしよう。

まず、画像であれ、音声であれ、表集計ソフトの売上データであれ、必ずデジタル化(数値化)する必要がある。そして、先述した3つの機能のうちどれか(組合せ)を使って結果を出力します。逆説的に言うならば、数値化できないデータの学習や3つのどの機能でも実現できない出力は機械学習にはできないことなのである。

【関連記事】
・今さら聞けない機械学習(1)〜機械学習とは
・今さら聞けない機械学習(2)〜機械学習のアプローチ
・今さら聞けない機械学習(3)~機械学習ができること
・今さら聞けない機械学習(4)~機械学習プロジェクトをスタートさせる条件
・いまさら聞けない機械学習(5)~正解率のワナ
・今さら聞けない機械学習(6)~コンピュータビジョンのワナ
・エッジAIは単機能化してサブスクリプションモデルに向かう
・日本のモノづくり復権の鍵はインダストリー4.0の受容
・インダストリー4.0の世界「モノからコトへ」