対話から始まる世の中の変革、その土台となる技術（後編）

こんにちは。Cygnusです。

全2回に渡り、意思疎通、意思伝達の手段として最も身近な「対話」に着目し、人と機械のインターフェースとして大きな可能性を秘めている「対話」を可能とする技術を紹介しています。（前回記事）
その後編となる今回は、対話技術の国際会議で発表された研究を紹介しつつ、対話システムが切り開いていく未来の展望をお伝えしていきます。

人と機械の対話により成長していくシステム

前回は、自然な対話を実現する技術、豊富な知識で応答するための知識データベースの必要性をご紹介しましたが、昨今ではこれらを組み合わせて対話システムの用途拡大・精度向上をするための手法が多く研究されています。
自然言語処理の世界でトップの国際会議であるACL（Association of Computational Linguistics）、その中でも対話システムのワーキンググループである「SIGdial」の2017年の会議で発表された研究を紹介します。

・対話中の未知語を暗黙的に確認する手法

対話システムで質問や問題解決をしたい多くのユーザーが対話システムを利用するようになると、発話の中に機械側にとって未知の用語が出てくることが増えます。未知の用語がどのカテゴリに分類されるか推定する手法はこれまでにも存在し、その分類の正しさはユーザーで判断できるものですが、いちいち聞き返して来ると使い勝手の悪いシステムになってしまいます。そこで、推定したカテゴリーで対話を進めながら暗黙的にユーザーに確認する手法が提案されています。
（参考記事：Lexical Acquisition through Implicit Confirmations over Multiple Dialogues）

具体的には、未知語を理解したフリをしつつ暗黙的な確認応答をし、ユーザーの反応から正しいか否かを判断していきます（この一連の流れを「確認要求」と定義しています）。暗黙的な確認応答は機械側が組むことができますが、それに対するユーザーの反応は多岐に渡るため、どんな反応ならば正しいと判断できるか、を精査していくことも重要です。

上図のように、推定したカテゴリが正しいか否かを直接聞き返すのではなく、あくまで自然な応答をした上でその後のユーザーの発話により判断し、正しければ未知語を知識データベースに取り込みます。
正しい確認要求のケースでは、暗黙的な確認応答に対してユーザーの前の発話と連動しています（レシピが知りたい→自分で作りたい）。一方誤った確認要求のケースでは、カテゴリの推定は誤っているものの確認応答に対して単純にユーザーが同意しています（イタリアンの良さ→良さを同意）。
このように、確認応答に対する単純なユーザーの反応だけではなく、前の発話との関係性も踏まえて判断するなど確認要求の精度を上げる必要があります。

さらに精度を上げるために、サーバーベースの対話システムを構築することで複数ユーザーの反応を収集・統合して学習しています。従来の単一・少数ユーザーの対話システムだと、学習・評価に必要な対話の事例が集まりきらず偏った結果となる可能性があるため、できるだけ多くの事例をサーバーに収集し学習することで、精度を上げていくことを目指すものです。

知識データベースの拡張には多くのユーザーの利用に基づく学習が必要不可欠ですが、ユーザーの使い勝手が悪いシステムではユーザーを増やすことができないため、多くのユーザーを取り込むための工夫が重要になってきます。日々生まれる膨大な量の情報を適切に蓄積・変化させていくことで、対話システムの向上が見込まれます。

対話システムの今後

ここまで、言語情報の理解に基づく対話の手法を紹介してきましたが、人が対話する際には、言語情報だけを意識しているのでしょうか？
チャットアプリやSNSなどでテキストだけの対話をするよりも、電話で対話した方がわかりやすいと感じるでしょうし、さらに対面で会って話すことで伝わり方が変わってくることは体感があると思います。
実際に人が発話からその意味を理解するときは、言語情報：7%、音声：38%、表情：55%の割合で重視されていると調査結果（メラビアンの法則、参考：Nonverbal communication）が出ています。言語情報だけでは、相手の感情や意図を踏まえた本当の意味での対話システムは達成できないと言えます。そこで、対話システムにおいては、言語情報だけでなく、声のトーンや大きさなどの音声情報、表情や身振りなどの画像情報を複合的に扱う「マルチモーダル」による対話システムの研究が盛んになってきています。

・マルチモーダルの対話システム

（引用：https://www.tis.co.jp/news/tis_news/20160112_1.html）

マルチモーダル対話システムの実現には、以下のように実に複合的・横断的な研究分野の結集が必要となります。

①音声認識・画像認識による言語や感情の理解
（音声認識・画像認識の概要・手法は、参考記事「音声認識技術について」「OpenCVによるAIの実装方法」ご参照。）
②理解した内容と知識データベースに基づく適切な応答の提案
③音声合成やジェスチャーによる感情を反映した応答

ロボットと人との高度なインタフェースを実現する技術確立に向けて、学術・研究機関、大手企業の産学連携での推進が主流になってきており、コミュニケーションロボットやVR、バーチャルエージェントの普及による市場ニーズの拡大が見込まれる分野です。

総論

対話システムについて、初期の様子から最新の研究動向をご紹介してきました。人と機械、人とロボットの対話が可能になることで、今まではキーボードやタッチパネルが主流だったインターフェースに、音声、表情、ジェスチャーなどの人間にとってより自然な手法でのアクセスが加わります。世界に先駆けて超高齢社会に突入する日本にとって、今までは手法の壁により機械・ロボットを扱えなかった方々がユーザーになりうることは、金融、公共サービス、医療・福祉サービスなど社会全体を変える可能性を秘めています。
未来技術推進協会も、産学官連携のハブとなることで社会全体をより豊かに、より便利にする技術に貢献する活動を継続していきたいです。