自然言語処理の概要と展望

私たちが普段使っている言葉での多種多様なやりとりを、機械上でできるようにしよう、というのが自然言語処理という分野である。
このように書くとシンプルであるが、言葉というもは深遠であるため、数多くの分野での研究や実用、試行錯誤を経て、着実にかつ影響力を増す形で進展している。
今回は、自然言語処理の辿ってきた道のりを大まかに把握しつつ、今後の展望について考えていきたい。


自然言語処理の道のり

自然言語処理の分野が、どのような道のりを辿って発展して来たかを簡単に説明する。

    1. 文章の構造理解

読む・書く・聴く・話すの要素の中で、聴く・話すについては音声認識・生成技術の発展が不可欠であり、音声認識⇒テキスト⇒音声作成のようにテキストデータを経由する必要があった。そのため、まずはテキストデータに関する読む・書くの要素が進展していった。
読むためには主語述語や品詞など、そもそもの文章構造を理解する必要があることから、形態素(言葉の最小単位)解析および構文解析(主語述語や係り受けの理解)の研究がなされ、日本語のような単語の切れ目が現れていない言語についても、かなりの精度で解析することが可能となっている。
解析のツールは無料で提供されており(Chasen、Mecab、Cabochaなど)、誰でも使うことができる。

    1. 意味理解、文脈理解

構造が理解できるようになった次は、それぞれの単語の意味を理解すること、文同士の関係性を踏まえて文脈を理解する分野に進んだが、これらの分野は今でも万能な技術は存在しない難解な分野となっている。
そもそも言葉の意味をどう把握するか?例えば、赤はなぜ赤いとわかる?眠いと眠たいは同じ意味?などである。これはとても大きな課題であり、人間が捉えているのと同じように機械に捉えさせるのは困難で、特定の絞った枠組みの中で定義するしかない。
文脈についても、前の文章によって文章の意味や位置づけが変わり、何とか推定して大きく外さないようにするという方向性で進めていくのが現状となっている。
この意味理解、文脈理解の大きな壁が、自然言語処理を進めることを妨げてきている歴史がある。

この壁に真正面から挑むのではなく、現実で起きている様々な問題に対し、特定の方法論であれ実用解決できる方法を模索する方向に舵が切られてきた。
その中でも、機械学習技術であるディープラーニングの発展により成果を上げているいくつかの技術を紹介したい。

    1. 機械学習技術の適用

ディープラーニングの発展により、大量のデータから目的に沿ったものを抽出したり、有意な特徴を新たに発見したりすることができるようになり、多数の分野で適用がされるようになった。
自然言語処理の分野でも、意味理解の分野で効果が上がった技術に「Word2Vec」が、機械翻訳の分野で効果が上がった技術に「Seq2Seq」がある。この二つを以下で簡単に説明する。

    • Word2Vec

単語の意味を演算可能にした技術。『ローマ - イタリア + 日本 = 東京』のように、意味レベルでの演算・比較が可能。
同じ意味の単語であれば同じような箇所で使われるはず、という着想をベースに、大量の文章から単語の使われ方を学習し、意味を表現するベクトルにしたもの。
意味を扱えるようにしたことで文章の要約や置き換えなど自然言語処理の分野での応用のみでなく、着想自体を応用してマーケティングやレコメンドシステムなど実業界でも適用・発展している技術となっている。

    • Seq2Seq

文章での単語の並び方に着目し、大量の対訳データを学習することで翻訳結果を出力する技術。
日本語⇒英語で例えると、対となる大量の文から並び方を学習し、「この日本語の並びが来たらこの英語の並びになることが多い」というモデルを構築することにより翻訳文を出力する。
従来の意味解析や構文解析による翻訳よりも、精度の高い翻訳結果となることがわかっている。

このように、言語そのものの意味や構造を解き明かして表現するのではなく、言語を扱うことで解決したい課題に対して実用的な研究・ビジネス利用を加速することで推し進める流れが重要となってきている。

今後の展望

自然言語処理の分野について、日本の社会性を踏まえたうえで特に着目したい展望を述べる。

    • 対話での機械操作

超高齢化社会を世界に先駆けて経験していくにあたり、機械リテラシーの高くない人々が当たり前に操作できる技術の発展は急務となってきている。分厚い説明書やめまぐるしい画面表示ではなく、対話で操作しながら不明な点や類似する機能を深堀りしていくことで簡単に利用できる基盤技術の進展が見込まれる。
特に、高齢者の方が利用する頻度の高い、公共サービス、医療・福祉サービス、金融サービスの領域で利用者の方へのハードルを下げられるような技術の開発を、産官学連携で実施していく重要性は高い。

    • コミュニケーションツールの高機能化

同世代、世代間でのコミュニケーション活発化、コミュニティ参画により人とのつながりを推進していくにあたり、コミュニケーションツールの利便性向上が不可欠となっていく際に、言語処理の技術を活用できる。
若者が使用する流行り言葉を一般的な用語に置き換えたり、シニア層が使用する言葉を若者の言葉に置き換える翻訳や、やり取りする情報の中からその人の趣味嗜好・特性を抽出し、似ている人をマッチングしコミュニティを提案する機能など、技術を応用する幅は広い。
利用・参画する最初の一歩のハードルを下げつつ、新しい人間関係を作り各世代の知識が循環するような場を促進するためにも、業界を横断した連携がさらに重要となっていく。

参考

    • 自然言語処理の仕組みと手順

    • Word2Vec:発明した本人も驚く単語ベクトルの驚異的な力

https://deepage.net/bigdata/machine_learning/2016/09/02/word2vec_power_of_word_vector.html

    • Chainerを用いた対話システムの実装【seq2seq】

https://qiita.com/takumi_TKHS/items/54d6551c97ef84c4d141