NHK技研公開2019 Vol.01 誰のためのAI、IoTなのか

Media /

NHK技研公開に今年も参加した。筆者の出席率はこの20年で7割くらいではないだろうか。NHKの技術研究所というポジションはメーカーでもないし民放でもないという独特のものなので、正直あまりビジネスライクではないのだが、が故に様々なイノベーションを起こすことができる。実際には多くの研究は民間企業と共同で行うものが多く、こうした「官民」ではないかもしれないか、協業や共創の成果は大きい。

今年の技研公開でのGASKET的な関心事項は「AI&IoT」と「地上4K8K」である。Vol.01ではAIとIoT関連について見ていこうと思う。

テレビ視聴ロボット

テレビをロボットと一緒に楽しむという話である。かつてはお茶の間と言われた場所で家族がテレビの前で、テレビをネタの会話が弾んだ、というのは昭和の時代の事実だと思う。ところが言うまでもなく、令和の時代はそうではない。そこでロボットの登場だ。

ロボットが音声認識と画像認識によって番組の内容を理解する。認識のための技術的な背景は現在日進月歩の領域なので、現時点でここの出来を議論でしても意味がない。認識精度を上げるためにローカルセンシングではなく、ロボットにメタデータを食わせればいいという議論もあまり現実解とは言えない。

デモの様子。真ん中下がオンエア画面、左上が画像認識で、この時はテレビの前にいる人を認識。ロボットの首が動くので時々テレビを見る。このときはフレンチトーストを認識したので「甘いものは好きか?」と問いかけるというもの。右上はデモのために音声認識の結果とロボットの発言を切り出して表示したもの。
画像認識の様子。GASKET読者ならおわかりの通り、このあたりはすでに驚くほと簡単にできること。

このデモは技術デモとして見たらレベルが高いわけでも新しいわけでもない。だが可能性はそこではないと思う。例えば一人暮らしの老人だったらどうだろう。ロボットが人に与える様々な効果、それも精神的なもの、いわゆる癒やしの部分。老人だけではない、アバターと暮らすということが決して笑い話ではなくなるかもしれない現代社会。ロボットと暮らすことと、犬や猫と暮らすことの本質的な相違はないのではないか。犬猫より高度な会話を楽しめるとしたら、そのほうが良いのではないか。いや逆で、犬猫は言葉がわからないからいいのだとか。。。

GATEBOX

GATEBOXのような製品はすでに実用化されている。これはおかしいというのであれば、テレビや映画は現実ではないことを体験させてくれているという点において、VRやARと何ら変わりはない。

テレビを見ている場所にある別のリアルなもの、この場合はロボットだが、それを含めたコミュニケーションやメディア設計というのが非常に気になった。もちろんこの場合は電波の放送である必要は全く無いので、放送ビジネスという視点では別の話であるが。

ネット×データ×IoTが連携するメディア技術

家電とテレビを連携させようという話だ。テレビの料理番組で焼きそばのレシピを放送していたら、スマート冷蔵庫が庫内の食材の状況を認識しているので、「豚肉を買えば作れますよ」と教えてくれたり、お気に入りのスポーツ選手の出場情報が洗面所のミラーサイネージに表示されて、「あと5分で○○選手の競技がはじめりますよ」と教えてくれるというもの。

スマート冷蔵庫は中身を把握しているという前提。それは一定条件をつければそんなに困難なことでもない。
洗面所のミラーサイネージの番組情報を表示

さてこれがユースケースなのだろうか。テレビ番組起点で考えればこうなのだろうが、現実味を感じられない気がしてならない。

スポーツ映像の状況理解技術

これはテレビ局の業務効率化の話だと思う。視聴者には関係ない話だ。4Kや8Kカメラで撮影した映像から、選手、ボールなどを認識して、AIによって重要な部分を認識して元画像から切り出し、カメラの切り替え(切り出し位置の切り替え)、ズームやパン、選手の表情などを自動的に切り出し、切り替えを行い、スポーツ中継番組として構成するものだ。昨年のIBCでも同様のコンセプトでトーク番組の完全自動制作のデモがあった。

全体の構成図
画像から自動抽出できるメタデータ
上の広い絵から切り出しを行った例
スポーツに限らずこの技術は広く応用ができることは確か、ではある。

こうした技術は映像制作プロセスにおいて飛躍的な省力化をもたらすことは間違いない。「いやいや機械にはわからんことがあるんだよ」という声が聞こえてくるし、それは全く同意する。だがそもそも求められていることなのか、意味があるのか、カネになるのかという点まで含めると、これでいい、ことも相当ある。スポーツのようにルールが明確で、過去データが蓄積しやすいもの、トーク番組のように映像と音声の構成がシンプルなものは少なくとも不体裁なく実現できるだろう。

多分この流れは避けられる事はないので、当たり前だが人間には別のクリエイティビティが求められることになるのだろう。それは簡単ではないが、時々どこかに出現することなので世の中は案外対等なのだ。