一家に一台ドラえもん?

こんにちは、山本睦月です。
今回は昨今の音声認識デバイスについて考えてみよう。

進化する音声デバイス

任天堂が1983年に発売したファミリーコンピューター(通称ファミコン)
今のゲーム機とは違い、ファミコンには最初から2つのコントローラーがついており
Ⅱコントローラー(通称ツーコン)にはなぜかマイクが内蔵されていた。

この機能を生かした遊びを取り入れたゲームの数多くあり、
FCゲーム「ドラえもん」ではマイクに向かって「ドラミちゃん!!!」と叫ぶと
画面内の敵が全滅するという裏技があった。
しかし、実際のところこのマイクの精度はあまり高くなく
マイクが一定の音量を感知すればいいだけで、「あー」でも「うー」でも反応する仕様だったらしい。

ところが当時の子供たちの間では「ドラミちゃん!!!」と叫ぶというのが
都市伝説的な裏技となっており、それを知っていることが一種のステータスとなっていた。

それから30年以上たった現在
音声をインプットするハードの進化とそれを処理するソフトの進化により
音声認識の世界は大幅に変化している。


まずは精度の話をしよう。

2016年10月
マイクロソフトの研究者とエンジニアのチームは、文字起こしの専門家よりもエラー率が低い音声認識システムを開発したことを発表した。
単語のエラー率は5.9%であり先月同チームより報告された6.3%よりも更に向上している。

5.9%というエラー率は、同じ会話を文字起こしした専門家と同等の結果であり
業界標準の電話音声認識処理における最高記録だ。

これにより、インプットの段階において機械は人間と同じパフォーマンスを発揮し
音声データがあればもはや人間は必要ない。
より多くの経験をAIに学習させることにより更に精度を高めることも可能だろう。

様々な言語や言い回しを理解する課題はまだあるものの
今やその課題は人間と同レベルのものになっている。


次にハードの話。

音声認識やAIのテクノロジーを生かしたものといえば
最近話題の「google home」をはじめとしたスマートスピーカーだろう。

スマートスピーカーでは、ユーザーの音声を認識し簡単な調べものや
天気予報、ニュースや今日のスケジュールの確認、音楽を再生する等
様々な機能を使うことができる。

このデバイスは「Amazon」や「Apple」「LINE」「ソニー」など大手各社から発売されており、音声認識デバイスの戦国時代となっている。
「google home」ではgoogle検索という巨大なデータベースが使えたり
Appleの「Apple HomePod」では、siriを搭載し4000万曲以上を揃えるAppleMusicと接続できたりと各社の強みが生かされている。

ただ、世間に認知されている割に使用率はまだまだこれからだろう。
音声アシスタントの主な使用用途は、情報の検索や天気の確認など単純なもので
高度なコンシェルジュ機能としてはまだ活用されていない。

今後の進化と共に、スマートフォンがそうであるように日常になくてはならないものになるだろう。

参考

    • ファミコンのIIコンに搭載されていたマイク 音声認識されていなかった?

http://news.nicovideo.jp/watch/nw3026821

    • 歴史的成果: マイクロソフトの研究者が対話型音声認識において人間と同等の成績を達成

https://blogs.technet.microsoft.com/microsoft_japan_corporate_blog/2016/10/24/161018-microsoft-researchers-reach-human-parity/

    • 『Google Home』『Amazon Echo』…話題のAI搭載スマートスピーカー機能・特長を比較

https://time-space.kddi.com/ict-keywords/kaisetsu/20171120/2030

    • 音声認識機能の認知率と使用率は?/他国より高い日本のガラケー所有率【世界モバイル利用動向調査

https://markezine.jp/article/detail/27678