話しかけるデジタルサイネージに求められるのはしゃがむこと

AI /

デジタルサイネージに表示されたAIキャラクターが、通りがかりの人々に話しかけてコミュニケーションを取る実証実験が、 2019年6月29日と30日の2日間、東京・調布市の商業施設「トリエ京王調布」にて実施された。

AIキャラクターは、クーガー株式会社が開発した「バーチャルヒューマンエージェント」(VHA)。映像認識や音声認識で現実の状況を把握できるほか、表情による感情表現やハンドジェスチャーなどの非言語コミュニケーションを交えた会話が行えるのを特徴としている。これまで同社では、VHAをスマホやタブレット上で稼働させてきたが、利活用の範囲を広め、街角でも活用するために、デジタルサイネージへの展開を進めていきたいと考えており、今回の実証実験を実施する運びとなったようだ。

筆者は、この「話しかける」がどの程度機能するかに興味があった。案内用のインタラクティブなデジタルサイネージは、ユーザー側が能動的にアクションすることで案内をスタートするのが一般的だが、これをデジタルサイネージからアクションを起こすようにできれば、より多くの人々に利用されるようになる。AIキャラクターが、そのひとつの解になり得るかを確認したかった。

しかし、結論から言えば、今回の実験を体験した限りでは、まだ課題は多く、大きいと感じた。

今回の実証実験では、デジタルサイネージの筐体が商業施設の入り口の脇に、動線に正対するかたちで設置されており、筐体上にウェブカメラとマイク、下側にスピーカーが置かれていた。ウェブカメラの撮影範囲内に人が入ると、画面内のAIキャラクターが話しかけてくるしかけだ。しかし、今回の実験で使われているカメラは一般的なウェブカメラで視野角が狭いため、モニターの正面に立たれない限りは人を検知できずに、話しかけることができない。ユーザーが意識的に正対すれば、話しかけてもらえるのだが、それではユーザーの能動的な行動を求めるとの点で、これまでのインタラクティブサイネージと大差ない。もちろん、カメラの視野角を広げれば、もっと広い範囲の人に話しかけられるようになる。しかし、画面のなかにいる2次元のキャラクターでは、声と目線の方向を変えられず、話しかけられた側が「自分に向かって語りかけてきた」と認識できない。モニターとスピーカーを物理的に回転させて対象を向かせない限りは、モニター内のキャラクターが周囲の人々に広角に話しかけるのは難しい。

手前のカメラがAIで使われているカメラ。奥にあるGoProは記録など別用途と思われる。
手前のカメラがAIで使われているカメラ。上下左右ともに視野角が狭いため、モニターに正対しないかぎりは、認識できない。また、子どももカメラを下に振らないと入らない。奥にあるGoProは記録など別用途と思われる。
スピーカーは足元にある。顔が上部にあって声が足元から聞こえるのは、違和感があった。
スピーカーは足元に置かれていた。聞こえやすいのだが、足元からの発話には違和感を持った。

また、今回の実験でデジタルサイネージが設置されたのは商業施設の入り口の脇だった。このロケーションだと、通行人は多い一方で滞留することなく流れてしまうため、話しかけるのに適していない。デジタルサイネージ側から話しかけるのであれば、たとえば地図やフロアマップの脇や、休憩スペースなどの滞留するロケーションを選び、さらにそれに合わせて「お食事ですか?」「おつかれですか?」と話しかけるなど、ロケーションとシチュエーションを含めてデザインしないと、実用的な話しかけにはならないだろう。

店内へと入っていく人への声がけとしては、機能していない。1wayサイネージとしては、よくある設置位置だが、声がけやコミュニケーションの場所としては不適切だった。

残念ながら、デジタルサイネージからの話しかけは、あまり期待できないことが確認できたため、今度はユーザーである筆者からデジタルサイネージに近づいて正対し、「こんにちは」と話しかけてみた。しかし、スルーされてしまった。挙動から想像するに、音声認識AIが発話区間抽出を適切に行えていないようだ。音声認識AIは、ユーザーが話し終えても、周辺に雑音があるとAIが「話が終わった」と認識できずに集音を続けてしまうことがある。この問題は、音声認識サイネージを設置している各社が苦労しており、スタンドマイクや受話器を設置して発話者の音声だけを取り込もうとするなど、ハードウェアで解決策を求めるところが多い。しかし、クーガー社では、VHAとの自然の会話を目指している以上、そのようなハードはできるだけ使いたくないらしく、採用していない。確かに、スタンドマイクを使って会話した瞬間に、VHAの意義が飛んでしまう。しかし、マイクを使うことなく雑踏のなかで音声コミュニケーションを行うには、ソフトウェアとハードウェアの両面で集音の指向性や発話者の音声のみの抽出を行わなければならず、ロケーションごとのチューニングも必要になる。ここについては、まだまだ道のりは長そうだ。

今回の実証実験の重要な検証項目に挙げられている、表情やハンドジェスチャーによる非言語コミュニケーションの実効性については、そもそもの言語コミュニケーションがまともにできない現状では評価が難しい。ただ、非言語コミュニケーションの可能性を感じたのは、このデジタルサイネージに子どもが駆け寄ってきて「こんにちは!」と声をかけたときだ。

この様子を見ていて「しゃがんで目線を合わせればいいのに」と思ったのだが、それは筆者はVHAの非言語コミュニケーションの能力を認め、求めているからなのかもしれない。

このとき、画面内のVHAは立ったままだった。人であれば、しゃがみこんで子どもの目線に合わせて会話をする。もし、ここでVHAもしゃがみこんで子どもに目線を合わせて話しかけたら、声をかけた子どもにとっても、周りで見ている人々にとっても、大きく印象がかわっただろう。スマートフォンなどのパーソナルデバイスとは異なる、デジタルサイネージならではの表現やコミュニケーションは、こういうところにあるのではないか。

今回の実証実験は、クーガー社をはじめとして多くのスタッフが常時様子を見守っていた。筆者は、小1時間ほど様子を見ていただけだが、いろいろと感じるところがあった。丸2日間見守っていたクーガー社が得たものはそれ以上だろう。初めてデジタルサイネージにチャレンジした彼らが、今回の実験を経て、どのようなバージョンアップを果たしてくるのか、楽しみだ。

【関連記事】
・案内ロボットで初めて「音声認識が便利」だと思った
・下北沢駅の中央改札券売機スペースのデジタル利活用は空回り