人とロボットが協力し合う未来に向けて、温かい関係を創る技術（後編）

こんにちは。Cygnusです。

全2回に渡り、人とロボットが対話し理解し合うために重要となる言語情報以外の技術を紹介しています。前回は、画像情報や音声情報（以下、「マルチモーダル情報」と呼びます）を活用して状況を読みながら、スムーズに対話を開始して進めていく技術を紹介しました。（前回記事）
その後編となる今回は、ロボットが人の意図を汲み取るための技術について紹介し、お互いが得意な分野を分担し協力することで築いていく未来の展望をお伝えします。

姿勢やジェスチャーから意図を汲み取る仕組み

人と人が対話をする際、自分の意図（質問、感想、相談等）をはっきりと言葉にしたり声の大小で表現する場合もあれば、姿勢やジェスチャーで暗に伝える、伝わる場合もあると思います。自分の思っていることは、隠しているつもりでも意外と表に出たり伝わってしまうことは皆さんもご経験があることでしょう。
例えば、楽しい/退屈、解決したい/ただ聞いてほしいなど、言葉だけではわからない思いを汲み取ることは円滑なコミュニケーションをするのに有用だと考えられます。

そこで、姿勢やジェスチャーなどの大きく外に現れる特徴を活用して、人の意図を推定する研究がなされています。ノースカロライナ州立大学の研究チームは、プログラミング学習システムにおけるチューター（ロボット）と生徒（人）という役割がある特定の条件下ではありますが、生徒の発話がどのような意図かを推定する手法を発表しています。（参考記事）

この研究では、生徒の様子をカメラで撮影し、そこから判定した姿勢・ジェスチャーをメインの特徴量として「教師なし学習」を行っています（教師なし学習については、参考記事「人工知能はどうやって「学ぶ」のか――教師あり学習、教師なし学習、強化学習」ご参照）。
教師なし学習のため、多くのユーザーがいても正解データなしで学習・適応させることができます。

推定する発話意図、特徴量の詳細は以下の通りです。

＜発話意図の種類＞
・回答
・感想
・了承
・質問
・説明

＜特徴量＞
・姿勢：退屈やイライラ、学習を辞めたいなどの推定
・カメラと頭の距離
・カメラと胸部の距離
・カメラと腹部の距離
・ジェスチャー：感情、集中力の推定
・片肘をついている数
・両肘をついている数
・対話のコンテクスト：対話における人の発話の位置づけによる推定
・発話の相対位置:（対話の開始からの相対位置）
・発話の長さ
・前の発話の話者(生徒orチューター)
・直前のチューターの発話意図
・授業中の生徒の行動：何をしているか、どんな状態かによる推定
・行動：発話、コードを書いている、実行している
・直近のコード実行結果
・タスク中に送ったメッセージ数、エラー発生回数

なお、姿勢・ジェスチャーについては以下のように画像データから判別し、従来研究において92.4%の精度で判別可能との結果が出ています。(引用元)

上記の特徴量をベースに発話のクラスタリング（分類）を実施し、分類されたクラスタがそれぞれの発話意図に対応します。姿勢・ジェスチャーを含んだモデルと含まないモデルで分類の精度を比較し、61.8%→67.1%に上がったことでマルチモーダル情報の有用性を確かめています。
さらに、姿勢・ジェスチャーのみで分類した精度が他の特徴量のみの精度より高かったことで、姿勢・ジェスチャーだけでもある程度の分類ができることがわかりました。

この研究では特に「質問」の発話意図を推定する精度が向上しており、これは生徒が混乱していたり悩んでいて実は質問したいときでも、「混乱しています」と言葉には出さずに姿勢がだらけたり片肘を突いたりする形で表に出るためと思われます。
逆に、のけぞって楽にしながら単に「感想」を発話した場合も、カメラからの距離が離れているので「混乱している」とみなしてしまったケースもあったようです。

今後カメラの価格が下がれば、ストリーミングでリアルタイムに学習する生徒の意図を推定できるようになり、さらに、教師なし学習のため使用する生徒の増加によって精度が向上していくことが期待されています。ここまでは、広範囲のマルチモーダル情報を紹介しましたが、次は表情や声などのより詳細なマルチモーダル情報にフォーカスしていきます。

表情や声から感情を汲み取る仕組み

感情を汲み取ることで円滑なコミュニケーションがとりやすくなることは、皆さんも体感されていることと思います。その中でも表情や声には感情が表れやすく、メールよりも電話で声が聴ける方が、そして電話よりも実際に会って表情が見れる方がお互いに理解しやすくなると言われています。
そこで、表情や音声の特徴量から感情を認識する手法の研究がなされています。画像認識と音声認識を組み合わせて精度を上げるための研究をご紹介します（参考記事）。

この研究は、「表情の特徴量」「音声の特徴量」の組み合わせにより、主要な感情と呼ばれる「楽しい」「悲しい」「嫌気」「驚き」「恐怖」「怒り」の6つに分類しています。
まずは「表情の特徴量」として「Action Units」「Facial Animation Parameters」を定義しています。

＜Action Units＞
・顔の大まかなパーツの動作をラベル付けし、感情を表す特徴量として定義。主なものを以下に記載します。

（引用元）

＜Facial Animation Parameters＞
・顔の細かな各パーツに番号を付け、それが連動した動きを数値化して特徴量として定義。以下の番号を線で結び、その動きを計測します。

（引用元）

上記のそれぞれの特徴量と感情の対応付けを学習し、特徴量から感情を分類できるようにしています。
次に、「音声の特徴量」として「韻律」を定義しています。

＜韻律＞
・ピッチ（音程）
・エネルギー
・話す速さ
・フォルマント（声を発する際の口腔の形に起因する、音声周波数のピーク。詳細は参考サイト参照）

上記の特徴量と感情の対応付けを以下の表のように分類したうえで、実際の音声データから感情を分類できるようにしています。

そして、表情による分類と音声による分類を組み合わせることで、さらに精度を上げています。表情・音声・言語のように異なる分類モデル（分類器）を組み合わせる手法は数多くありますが、この研究では「分類に効果的な特徴量への重みづけ」と「表情と音声の相関を踏まえた分類」を提案しています。

これはわかりやすく言うと、経験則としてこの特徴量はこの感情を表しやすいから重みづけ（重要度）を上げて分類しやすくしよう、この表情とこの音声は相関が高いから一緒に表れていたらより確実に分類できるだろう、という考えに立っているものです。この手法により、6つの感情の分類が平均90%の精度で可能となっています。
人の感情を汲み取るアプローチにおいて、マルチモーダル情報の組み合わせによる有用性がわかった結果となっています。

総論

ロボットが人の感情や意図を理解するために、姿勢・ジェスチャーや表情・音声など多分野の技術連携が効果的であることをみてきました。さらに、理解する精度を上げるには、多くの実例データによる学習・手法の改善が必要不可欠であり、専門家以外の一般の方々の利用・協力が重要になってくると考えられます。
加えて、深層学習で人の動作をロボットが覚えて行く研究もされており、人の感情や意図をロボットが体現できるようになることで、ロボット自身で新たな感情を学習し、人に伝えることができるようになるかもしれません。

異なる分野の企業同士、企業と研究者のさらなる連携の促進、専門家以外の有志の方々との結びつきの機会を創っていく存在として、未来技術推進協会は活動しています。さらに、技術発展に可能性を見出して資金やリソースを投入する投資家の方々との結びつきも強化し、日本の技術発展に貢献していきます。