今さら聞けない機械学習(2)〜機械学習のアプローチ

AI /

機械学習で使われるアプローチにはいくつか種類がある。“教師あり学習”は、読んで字のごとく、いくつかのデータと予測、検知したい正解データの組み合わせからモデリングを行うものだ。ビジネスの現場ではこのアプローチが最も多く使用される。多変量解析などを経験された方には一番わかりやすいかも知れない。例えば気温とビールの売り上げには何かしらの相関関係が存在すると思われ、この時気温がデータ(説明変数)であり、ビールの売り上げ(実績)が“教師”となる。明日の予想最高気温からビールの売り上げを予想するわけである。“教師なし学習”とはデータそのものの構造を獲得するものである。クラスター分析などがこれに属する。もうひとつは強化学習だ。これは、囲碁や将棋などのようにどのような行動を取るか、という戦略を獲得するものだ。

さて、多変量解析(重回帰分析)を経験された方であれば、ここでひとつ疑問が起こるはずだろう。例えば、先ほどのビールの売り上げ予測は機械学習で行う必要があるのか、という点である。多変量解析で十分なのではないかという疑問である。結論から言うと、この例であれば多変量解析で十分だろう。「巷ではAIだ機械学習だと騒いでいるが、それらの大半はすでに統計手法で実現している。」という意見もあり、“AIを使って”、とアナウンスしているが、内情は統計手法だったり、もっと稚拙なアルゴリズムであることも多々ある。では、こういった例の場合、機械学習は無意味なのでだろうか、というとそうとは言い切れない。

例えば、ビッグデータの存在がある。たとえば、ビール会社がもっと膨大なビッグデータを持っていたとする。仮にサッカーのワールドカップが開催されてかつ、日本のチームが勝ち進んだとします。夜中の放送であれば、ビールを飲みながらこれを観ることは十分に考えられる。負けてしまえば、一気に視聴率は下がるだろうから、ビールの売り上げには影響しないであろうことも予想できる。ある地方の小学校の運動会が開催されていれば、お父さんはビールを飲みながら応援するので、天候に関係なくビールが売れるかもしれない。多変量解析は人間が説明変数の仮説をたて、そこから統計的に目的変数を説明できるか、という考えなのである。一方、機械学習はどれが説明変数となるかわからないが、とにかく色々なデータをコンピュータに教えてみよう、さらに目的変数を説明するのではなく、理由はよくわからないがこう予測できる、という考え方になる。

しかし、だからと言って、世の中のあらゆるデータを学習させても良い成果は得られないだろう。データが膨大になれば、開発や学習コストも増えてしまう。

機械学習は不確実性も高く、思った答えが得られるとは限らない手法である。結局はそのビジネスドメインに精通した人の定式化アプローチがとても重要となる。しかし、「こういった条件(データ)が複雑に絡み合って“結果”があるのではないか。理由はわからないのだが」と思ったらそれは機械学習での解決に挑戦しても良い課題かも知れない。

【関連記事】
・今さら聞けない機械学習(1)〜機械学習とは
・今さら聞けない機械学習(2)〜機械学習のアプローチ
・今さら聞けない機械学習(3)~機械学習ができること
・今さら聞けない機械学習(4)~機械学習プロジェクトをスタートさせる条件
・いまさら聞けない機械学習(5)~正解率のワナ
・今さら聞けない機械学習(6)~コンピュータビジョンのワナ
・エッジAIは単機能化してサブスクリプションモデルに向かう
・日本のモノづくり復権の鍵はインダストリー4.0の受容
・インダストリー4.0の世界「モノからコトへ」

Tags: