一家に一台ドラえもん？

こんにちは、山本睦月です。
今回は昨今の音声認識デバイスについて考えてみよう。

進化する音声デバイス

任天堂が1983年に発売したファミリーコンピューター（通称ファミコン）
今のゲーム機とは違い、ファミコンには最初から2つのコントローラーがついており
Ⅱコントローラー（通称ツーコン）にはなぜかマイクが内蔵されていた。

この機能を生かした遊びを取り入れたゲームの数多くあり、
FCゲーム「ドラえもん」ではマイクに向かって「ドラミちゃん！！！」と叫ぶと
画面内の敵が全滅するという裏技があった。
しかし、実際のところこのマイクの精度はあまり高くなく
マイクが一定の音量を感知すればいいだけで、「あー」でも「うー」でも反応する仕様だったらしい。

ところが当時の子供たちの間では「ドラミちゃん！！！」と叫ぶというのが
都市伝説的な裏技となっており、それを知っていることが一種のステータスとなっていた。

それから30年以上たった現在
音声をインプットするハードの進化とそれを処理するソフトの進化により
音声認識の世界は大幅に変化している。

まずは精度の話をしよう。

2016年10月
マイクロソフトの研究者とエンジニアのチームは、文字起こしの専門家よりもエラー率が低い音声認識システムを開発したことを発表した。
単語のエラー率は5.9%であり先月同チームより報告された6.3%よりも更に向上している。

5.9%というエラー率は、同じ会話を文字起こしした専門家と同等の結果であり
業界標準の電話音声認識処理における最高記録だ。

これにより、インプットの段階において機械は人間と同じパフォーマンスを発揮し
音声データがあればもはや人間は必要ない。
より多くの経験をAIに学習させることにより更に精度を高めることも可能だろう。

様々な言語や言い回しを理解する課題はまだあるものの
今やその課題は人間と同レベルのものになっている。

次にハードの話。

音声認識やAIのテクノロジーを生かしたものといえば
最近話題の「google home」をはじめとしたスマートスピーカーだろう。

スマートスピーカーでは、ユーザーの音声を認識し簡単な調べものや
天気予報、ニュースや今日のスケジュールの確認、音楽を再生する等
様々な機能を使うことができる。

このデバイスは「Amazon」や「Apple」「LINE」「ソニー」など大手各社から発売されており、音声認識デバイスの戦国時代となっている。
「google home」ではgoogle検索という巨大なデータベースが使えたり
Appleの「Apple HomePod」では、siriを搭載し4000万曲以上を揃えるAppleMusicと接続できたりと各社の強みが生かされている。

ただ、世間に認知されている割に使用率はまだまだこれからだろう。
音声アシスタントの主な使用用途は、情報の検索や天気の確認など単純なもので
高度なコンシェルジュ機能としてはまだ活用されていない。