今さら聞けない機械学習(6)~コンピュータビジョンのワナ

AI /

コンピュータビジョンとは簡単に言うと、コンピュータに映像(動画でも静止画でも良い)を入力し、例えば形状を把握する、寸法を測る、物体を検出する、顔を認知する、人を認識(区別)する、等など、とにかく、“理想的なロボットの目”を構築する技術やシステム全般を指す言葉である。ディープラーニングはかつてのパターン認識、ルールベース認識に比較して、コンピュータビジョンにおいては強力な威力を発揮する。特に曖昧な画像から、特定のクラス(学習した分類項目)を確率的に提示する能力は目を見張るものがある。

しかし、恐ろしいほどの開発費と最先端でコストを無視したハードウェアを費やした一部大手の(いわゆるGAFA)デモを見て、これが現時点で簡単でベストの選択肢であると思ってはならない。

FAの現場生産技術者に言わせると、“決まった条件下ではあるが、レーザー、光、超音波、カメラ、その他あらゆるセンシング技術を駆使して、100%の認識率で何かしらの物体検出を行ってきた。98%の精度なんて、話にならない。もちろん、ラインには、猫やら犬が流れてきて曖昧な画像から検出しろ、という命題は無いけどね”、と笑う。

FAの現場では、例えば、ミクロン単位の誤差でさえ、何かしらのセンサー技術で認識、検出している例はザラだ。その精度はディープラーニングを使ったコンピュータビジョンの比ではない。まさに桁違いなのだ。

何故、今、AIを使ったコンピュータビジョンが注目されるのか?

それは、センサー(システム)のコスト、絶対精度ではなく曖昧さへの対応度、の二つに集約される。

ベーカリーショップでトレイの上に乗せられたパンの画像をAIで処理して、自動で清算できる、というシステムのリリースを見た方も多いだろう。想像で申し訳ないが、多分精度は97%前後だと思われる。一方、FAの技術を使えば恐らくPPM単位での精度が出せる。だが、FAのテクノロジーではセンサー類のイニシャルコストが現実的ではないのである。(少なくともベーカリーショップにはムリな投資が必要。)パンの種類が変わった時の追加開発コストも膨大になる。

ところが、AIを使ったシステムなら、極めて安価なUSBカメラと、ちょっとした(実際にはこれがノウハウの塊だと想像するが)専用撮影什器、安価なPCで済んでしまう。

ただし、精度は97~98%程度。エラー対処の運用モデルと、完全にゼロにできない人件費との絡みは考慮しなければいけない。しかし、絶対精度と運用の折り合いさえつけば、AIは強力なソリューションを提供する。あなたのビジネス環境を間違えなく変える。

ベンダーの選択を誤るな

ならば、自社の色々な課題もAIを使ってコンピュータビジョンを導入してみたい、と思うのは当然だし、是非チャレンジしてみて欲しい。しかし、ひとつだけ注意して欲しい点がある。あなたがシステム委託(相談)したい会社が、古い画像処理、つまりパターンマッチングや、ルールベースでの画像処理、しいてはFAなどでの現場で、AIを利用していない画像処理技術を経験しているか、どうか、という点なのだ。

何ら貶めるつもりはないが、中途半端にAIを手がけている会社は、これらの経験が無く、先述したGAFA等のいわゆる“素晴らしい”デモを見て、それを実現可能だと思っている。そしてあなたに提案する。

しかし、安価にコンピュータビジョンでのAIを成功させるためには、“古い”、しかし、“不可欠な”技術の知識が不可欠なのである。恐縮だが、あえて技術的な言い方をすると、ディープラーニングに教える材料、つまり画像データは生データでディープラーニングに与えても、ほとんどの場合うまくいかない。高度な画像処理への前処理が必要になるのである。

二値化、膨張、収縮、エッジ処理、少なくとも100種類くらいの画像処理技術が存在し、かつてそれらを組合せて画像処理技術は発展してきた。

AIが民主化され過熱化すると、多くのベンチャー企業はこれらの技術を知ることなく、なんでもAIで処理できると勘違いし、これを提案しているが、誤解を恐れずに言うならば、画像処理技術の基本を知らないパートナーとのプロジェクトの成功確率は極めて低いと言わざるを得ない。

“AI以前に、画像処理でハマったことがありますか?”、と聞いてみて欲しい。

この質問があなたのプロジェクトの成否を分けるはずだ。