今だからこそ知りたいビッグデータ×AI(第1回)

AI

今だからこそ知りたいビッグデータ×AI(第1回)

こんにちは。Cygnusです。

気分も新たに迎えるこの新年度の季節、仕事や役職が変化したり、新たに勉強しようと行動をする方も多いのではないでしょうか。
メディアや映画、本屋などで見ない日はないほど世間に浸透している「ビッグデータ」と「AI」という分野について、「言葉は知っている」、「明るい未来/仕事が奪われる不安のようにイメージが先行している」、「専門家として扱っている」、様々な方がいらっしゃると思います。これから知るという人も、もう知っている人も、今だからこそ改めて全体感を押さえていけるように、複数回に渡り連載していきます。


ビッグデータとは?

ビッグデータという言葉を聞いて抱くイメージは様々だと思いますが、想像を超えるほどの膨大なデータと解釈することにそれほど認識相違はないと思います。文献やWeb、著者の実務での経験を踏まえてまとめると、「人間の生活から生まれるあらゆるデータ、あるいは、自然から得られるあらゆるデータ」と定義できると考えています。前者はイメージしやすいものの、後者はパッとなじみのない場合もあるかと思いますので、こちらについては後述します。

まず、なぜこれほどビッグデータという言葉が騒がれているかをお伝えすると、人と機械が扱えるデータ量が指数関数的に増加していることがあげられます。ほんの10年ほど前までは、数十MB~数百MBほどのフロッピーディスクやCD-Rなどを使っていました。しかし、現在では数十GBのUSBメモリを持ち歩くのも当たり前になっており、皆さんがお使いのPCも数百GB以上の容量があるのは当たり前だと思います。
個人のレベルから世界全体で生成・複製されるデータ量に目を向けてみますと、2005年には130EB(エクサバイト:エクサは10の18乗、100京バイト)であったのに対し、2020年までに300倍の40ZB(ゼタバイト:ゼタはエクサの1000倍)にまで達すると予想されています。
データ量の増加は、先進国よりも新興国で上昇し、2020年には新興国の占める割合が62%まで達すると見込まれており、新興国でのデータ活用が大きなインパクトになることが予想されます。(IDC(International Data Corporation)の発表より)

(引用元:THE DIGITAL UNIVERSE IN 2020: Big Data, Bigger Digital Shadows, and Biggest Grow th inthe Far East

このデータ量の増加は、ビッグデータの一つの特徴であり、ビッグデータは大きく3つの側面で特徴が定義されています。それぞれの側面、Volume(量)、Variety(種類)、Velocity(速度)について説明します。
※この3Vは、米調査会社ガートナーのアナリストであるダグ・レイニーが提唱。

・Volume(量)
データの実際の量であり、データを生成する媒体、データを保持する記憶装置、データを通信する通信環境の進歩により扱えるデータ量が膨大になったことを表します。データが少ないときにはわからなかったものが、膨大になったことにより傾向や特徴、特異値などが把握できるようになります。

・Variety(種類)
テキストデータから始まり、画像・音楽データ、材質・密度などの物質データ、脈拍や体温などの生体データ、気象・地形などの自然観測データなど多種多様なデータが扱えるようになったことを表します。種類が増えただけでなく、異なる種類のデータを結び付けて活用することで、従来とは異なった発見が可能となる重要な側面です。

・Velocity(速度)
ストリーミングデータや、物質、生体、観測のリアルタイムデータを扱うまでの速度が活用可能なレベルに上がったことを表します。今、どこで、何が起きているか、それをほぼタイムラグなく活用できることで、従来難しかった応用が可能となる重要な側面です。

このような特徴のそれぞれを有機的に活用し、産業、生活、環境など人類を取り巻く課題を解決することでさらに豊かな未来を実現していくことが期待されています。

ビッグデータの背景

ビッグデータが成長している背景にはどのような変化があるのか、ご紹介していきます。

・データを生成・授受する「人」の増加
今や当たり前のプラットフォームとなったインターネットにおいては、一昔前までは政府や公共機関、企業、組織などが自分たちの情報を世の中に発信する一方通行の情報が流れているものでしたが、ブログやSNS、簡易的にHTMLを作成できる技術の発展により誰でも情報発信することができるようになってきました。2005年ごろに「Web2.0」というキーワードで一般に広まっていたことをご存知の方もいると思います。この流れにより発信者が一部の権威ある人から世の中全員に移り、埋もれていたり知られていなかった人が有益な情報の発信源になり、その周りにコミュニティができたり、それを見た人が次々と世の中に認められるという循環が起きています。
(代表的なサービスは、SNS、Wiki、ブログ、動画共有サイトなどが挙げられます。)
このように、発信源の増加により生成・流通するデータ量が加速度的に増加しています。

・データを生成・授受する「モノ」の増加
データを生成するのは、情報端末や特殊な機器・センサーなどだけでなく、身の回りのありとあらゆるモノまで広がってきています。機械や端末の形をしたもの以外に、ビルや家の中、道路や公園などの生活圏にあるもの、気象や陸・海・空の自然の状態を計測できるものに小さなチップやセンサー、wifiのような通信機構が組み込まれ、それぞれがデータを生成・算出し、それを互いに通信できることができるようになっています。今まで処理対象としていなかったデータを活用可能な形にしていく「データフィケーション」と呼ばれる動きにより、今まで解決が難しかった課題を解決したり、新たな豊かさを実現していく革新を「IoT(Internet of Things)」と呼んでいます。

個人・家庭・街のスマート化のみでなく、それらの成功事例/失敗事例をもとに学習・応用することで他の国・地域に至るまでをスマート化し、世界全体でさらなるステージアップをしていくことが期待されています。

このように、人やモノから眠っていた新たな価値を創出していく流れが必須となっていることから、ビッグデータが成長してきていると言えます。次に、ビッグデータがもたらす恩恵を説明します。

ビッグデータがもたらす恩恵

実際にどのような恩恵が得られるか、2つのテーマに分けて説明します。

・消費と生産への変革
ビッグデータで便利に変わってきたものとして思い浮かびやすいのは、身近な消費ではないでしょうか。私たちが実際のお店やオンラインでものを購入する際、ポイントカードやクレジットカードの利用により、どこでいつ何を買ったかがわかるのは自明ですが、仮にカードを持っていないとしても、性別・年齢・新規/リピーターのように瞬時に判断できる情報を店員がレジに入力することで大まかな購買データを蓄積できるようになっています。このような購買データに対し、協調フィルタリング(詳細は参考サイト「協調フィルタリングとは」参照)などの機械学習を活用することで、各個人の嗜好に合った商品を薦めたり、場所や時期に応じてリアルタイムに薦める商品を選択することで、便利に無駄なく消費が起きるのに役立っています。
強調フィルタリングのように、ビッグデータから価値のある情報を創出するために、AI(人工知能)の技術が活用されています。AIの定義は研究者や技術者の間でも様々な主張があり、「人工的に作られた人間のような知能」という定義が実態を幅広く内包できると思います。大量のデータの中から人間が指示した特定のパターンを発見・学習したり、パターンの見つけ方自体をコンピューターが獲得したり、日々進化を遂げています。AIについては、後の連載で詳細に触れて行きます。

生産については、工場や研究所、農業のスマート化が期待されています。生産ラインや各工程のロボットによる自動化は以前から進んでいますが、企業、工場などの生産施設、供給先の施設や倉庫などサプライチェーン全体を各々結び、IoTでデータを取得し、AIを活用して最適化していく「Industry 4.0」という動きがドイツをさきがけに各国で活発になっています。「Industry 4.0」では、顧客(供給先)の需要から始まる生産~物流~保守のバリューチェーン全体の最適化、市場全体の構造改革を目的としていて、官民一体となった推進が必要不可欠となっています。特に生産にかかるコストが他の国と比較して高いドイツや日本では、この実現が将来に向けて重要となってきます。
農業においては、古くからの慣習や経験、勘にたよる比重が大きかったところから、農作物の特性・状態のモニタリング、気象データのリアルタイム活用による品質向上、的確な肥料、農薬散布による無駄の削減を目指してIoT導入が盛んになってきています。ロボットやドローンによる農薬散布で健康や環境被害も抑え、無駄なく優しく生産する未来が期待されます。

・社会と個人生活の変革
私たちが生活するのに必要な社会インフラや、災害・事故から身を守るためにもビッグデータが活用されています。道路、トンネル、橋などの交通インフラでは、センサーの設置による老朽化検知、材質や状態に応じた適切なメンテナンス時期の把握による安全性担保などに活用され、水道・電気・ガスなどの生活インフラでは、使用量・時間帯に応じた流量制御や不具合箇所の早期検知などに活用されています。災害時には、発生後に危険度が上がる場所の推定やセンサーによる土砂くずれや冠水の早期検知、それに応じた安全な避難経路を算出のうえ個々人のスマホや通信端末で案内するなどに活用できます。いずれもIoT、AIの技術が必要不可欠となります。

個人の生活においては、車を運転する際に目的地や混雑状況に応じて経路を選択したり、自身の健康管理のため、脈拍や血圧・体温などの生体データの変化、食事や運動量などの健康データの管理、病院や医師にかかった履歴の把握などを通じて、より迅速・適切な対応が可能となります。
ここで重要なのは、各個人が有益なデータを主体的に提供することで分析データの量・質が高まるとともに、予測や判断の精度が上がり、ひいては各個人のためになると理解することです。各個人が地域・社会というコミュニティに属する一員として適切な範囲でデータを提供していくこと、そのために、各個人の理解ならびに負荷をかけずに自然にデータを収集する枠組みの整備が重要となってきます。
また、同じ趣向や強みを持っていたり、同じ病気や経験で辛い思いをしている人同士を判別しデータを授受することで、優秀な人やサービスの紹介、お互いの経験のシェアなどコミュニケーションをとって励ましあうことができ、心の通ったコミュニティを創っていくことも期待できます。

総論

今回は、ビッグデータとは何か、その成長の背景、そしてどのような恩恵が期待されているのかをご紹介しました。大手の企業や官公庁、研究機関だけが扱うものではなく、消費や社会インフラ、個人の生活など私たちの身近にも密着しているものといえますし、自動的なものも含めて一人一人が提供するデータにより社会全体を良くしていける可能性があります。
未来技術推進協会では、ビッグデータやAI、IoTなどの未来技術を学べる講演会や、企業や研究者などの専門家に限らず様々な職種・業種の方々のアイデアを掛け合わせて実際の社会貢献を目指すアイデアソンなど、各種イベントを開催しています。この記事をお読みの皆様と共に、個人としてできることを考えて社会を変えていければと考えています。

次回の記事は、ビッグデータの活用において超えなければならない壁と、実際のデータ分析の手法をご紹介する予定です。


参考