いまさら聞けない機械学習(5)~正解率のワナ

AI /

機械学習を応用したシステム、基本技術の紹介などで“驚きの正解率99%を達成”、みたいな文言を見たことはないだろうか?システムの予測精度を判断するためには、多くのパラメータを調べる必要があるのだが、代表的なものは全体正解率、適合率、再現率、F値の4つの指標である。(これらの詳細はいずれご紹介します)しかし、この宣伝文句はこの4つのうちどの数値なのかを明確にしていないのである。

例えば、製造ラインの商品の合否判定(正常品、不良品)のシステムだった場合、不良品を見つける精度が99%なのか、それとも良品と判定する精度が99%なのかで話はまったく違う。
今、歩留(ぶどまり、正常品の製造率)が99%のラインがあったとする。そして導入した合否判定システムは、“正常品”を正常であると判断する精度が99%だったとするならば、このシステムは詐欺であり、何の役にも立たない。100個の製品が流れてきた時に、「100個全部が正常品です。」と判断すれば(歩留が99%なので1個不良品があるはず)99%の正解率を達成できるからだ。つまり、システムがなくても同じなのだ。

製造ラインにとって致命傷なのは、不良品を良品として後工程か市場に流すことである。つまり、この場合、不良品を見つける精度が100%であるが、そのうち90%(仮に)は正常品が混じる、というような提示性能であり、指標にならなければいけない。例えば、100個流れてきた時に、システムは、30個が不良だと分類、報告する。ただし、不良品は1個だけ含まれ、残り29個は良品である。一方、不良品を良品と判定することはない、というシステムであれば人が100個全数検査していたコストと、30個から1個の本当の不良品を再検査するコストを比較し、システム導入をするかしないか決定すれば良い。では、今度はシステム屋が不良品検出精度100%です。と言えば、それを信用して良いのだろうか。否、それも違う。この場合、100個すべてが不良品だと報告すれば、不良品検出精度は100%になる。(必ず1個不良品が含まれるから)しかしこれでは当然人手は減らない。

実際にはこれらの現象は先述した4つの指標の他に、真陽性(TP),偽陽性(FP),偽陰性(FN),真陰性(TN)などを算出して判断しなければいけないし、機械学習システムの設計、開発、調整には欠かせない数値指標なのだ。

極端過ぎる例だし、そんなことは分かっているとお叱りを受けるかも知れない。この話は機械学習だけに当てはまるものではないし、ごく当たり前の話でもある。しかし、もっと複雑なビジネス現場を改善、解決しようとすると、無意識にこんな数字のワナにはまっていることも多々あるものだ。まして機械学習を使おうなどという挑戦的プロジェクトであればなおさらである。機械学習ですべての指標を理想的な数値にすることは不可能である。しかし、現場での重要ポイントをもう一度冷静に見つめ直すと、どの指標をもっとも重要視するべきか見えてくる。
機械学習の導入検討でもっとも有益なのは、実はビジネスをもう一度原理原則から見直すプロセスにあるのかも知れない。