音声ではない「音」のAI~意外に聞かない音声信号のAI処理

AI /

筆者の稚拙な予想で申し訳ないが、2019年はAI(機械学習)のテクノロジーは単体での性能向上や新しいアルゴリズムの発表、エッジAIデバイス(演算チップ系)の新規参入など去年にも増して活性化されていくと思う。一方、利用する側の企業(開発元ではなく、サービスや業務に使いたい側)からすると、バズワードを鵜呑みにして苦しんだ企業も、良く言えば慎重に、悪く言えば“ぼーっ”と傍観していた企業も、2018年という年は正しい判断をするための判断技術を模索し続けた年ではなかったかと思う。少なくとも日本ではそうだったような気がする。2019年はこの判断力をベースに多くの企業が新しいリスクに挑んでもらうことを期待したい。

さて、AI絡みの話を聞く現場にいるのだが、意外に耳にしないのが、音声信号処理系をAIアプローチでやっている、という話。音声信号処理と聞くとAlexaやGoogleHomeなどの人間の話すことを認識して何かしらの応答をするものをイメージされる方がほとんどだと思う。いわゆる音声認識である。もちろん、この市場も膨大で、声だけで色々なものを完全にコントロールすることができれば、世の中はもっと変わるだろう。SF映画の宇宙船の中ではほとんどを音声でコントロールしているが、これに違和感を覚えないのは、それが人にとって無理のないインターフェースであることを証明していると思う。

しかし音声認識応答技術は実は易しくない。音を判断するだけではダメで、言語処理が必要になるからだ。世界中の自然言語にも対応しなければいけない。残念ながら、GoogleとApple,、Amazon以外に新たなプレーヤーが出現する可能性は今のところゼロだと断言できると思う。筆者が云う、音声信号処理というのは、自然言語系の音声ではなく、いわゆる“音”である。トンネルの内壁の検査ではハンマーで壁を叩き、音や響きで職人が不具合を検出する「打音検査」というものがある。列車の点検時にもハンマーで叩く場面がみられる。たとえばこういった信号を録音し、職人さんがこれはOK、これはNGの音、と教師データを蓄積し機械学習させ、識別やクラスタ分析をAIにさせられないのか?、という発想である。何を相談しても、何を話しても「そんなのAIでできるんじゃないの?」というご時世で、音声信号の話はあまり聞かないのである。なぜか?

はっきり言うと、コンピュータビジョンでのAI利用はサンプルプログラム程度であれば、オブジェクト検出など誰でもできる時代になってしまった。(効率的学習と実用になるならないは別問題)決まり文句は、「何千枚か画像データを用意すればできるんじゃないの?」である。ところが、音声信号はサンプルがあまりないことと、音声信号処理はFFT解析、その他さまざまな信号処理技術が必要であり、信号処理の技術者でないとこの発想にならないのである。

もうひとつの理由は、音声処理の場合、画像処理でよく使われるCNN(Convolution Neural Network)ではなくRNN(Recurrent Neural Network)やLSTM(Long Short-Term Memory)という時系列のデータを扱うアルゴリズムが必要なのだが、(乱暴に説明すると、画像は止まってるものから判断してよいが、音声は時間とともに変化し、その変化が重要である)これらのサンプル、実例がCNNなどに比べ極めて少ないのである。実際、このアルゴリズムを理解し使いこなすのもCNNより難度が高いと筆者個人は思う。

以前にもGASKETでAIはあくまでも数値モデルであるから、入力をとにかくデジタル化する必要がある、と書いたことがある。逆に言うならば、世の中のアナログデータをデジタル化さえすれば、AIがなんとかしてくれる、かも知れない。AIを活用し本当の成果を出すためには、レガシーな物理データを見つめなおす能力と最先端のアルゴリズムを理解できる能力。そして、それらをブリッジする能力が必要なのだ。GASKETは2019年もこのブリッジの役目を目指していこうと思う。

【関連記事】
・DSAテクノロジーを加速させるAIチップ競争
・FPGAはエッジAIの選択肢になるか
・学習も端末で行うようになるエッジAI
・エッジAIはコト売りのビジネスになる
・エッジAIは単機能化してサブスクリプションモデルに向かう
・今年に入ってからエッジAIボードが続々と登場している
・エッジAIは熟練職人を求めている
・エッジAIの動向とハードウェアに与える影響
・エッジAIがIoTの主流になる
・Raspberry Piで実現させるエッジAIテクノロジー
・フォグコンピューティングとエッジコンピューティングとは何か?
・品質保証に苦しむIoT、エッジコンピューティングの現場
・RaspberryPi 4が新登場。エッジAIとIoTの覇権争いは続く
・PoEはエッジコンピューティングを救うか
・音声ではない「音」のAI~意外に聞かない音声信号のAI処理