現在位置: ホーム / ゲストブログ / 連載:ビッグデータ 前編「ビッグデータの正体」

連載:ビッグデータ 前編「ビッグデータの正体」

今回から2回連続で、日本ヒューレット・パッカードが公式に認定するオープンソース・Linuxテクノロジーエバンジェリストで、Hadoopの技術者認定資格を保有する古賀政純さんが、ビッグデータについて連載記事でお届けします。


連載前編は、ビッグデータとは何かを説明します。IT業界において、ビッグデータという言葉は非常に一般的になっていますが、そもそもビッグデータとは、 一体何なのでしょうか?ファイルの量やファイルサイズが大きいだけなのでしょうか?それを取り巻く我々人間は、ビッグデータとどのように関わり、利活用し ていくのでしょうか?ビッグデータの正体をひもといていきます。(2015年2月17日)

寄稿者:
日本ヒューレット・パッカード株式会社
プリセールス統括本部 ソリューションセンター
オープンソース・Linuxテクノロジーエバンジェリスト
Red Hat OpenStack/RHCE/RHCVA/Novell CLP/EXIN Cloud/HP ASE/Hadoop(CCAH)認定技術者
古賀 政純(こが まさずみ)


 

前編 ビッグデータの正体


ビッグデータは一体何か?

ビッグデータという言葉を聞いて、皆さんは、何を想像しますか?

膨大な量のデータ、PCに入りきらない巨大な動画ファイル、大容量ハードディスク、または、米国の巨大IT企業や有名な広告業、巨大流通業、先進技術を探求する宇宙産業、さらには、最近話題の「人工知能(AI)」などを想像する人もいるかもしれません。ビッグデータは、たしかに、「膨大な量のデータ」というイメージが付きまといます。

ビッグデータは、PCやサーバー数台に入る、入らない、というレベルではなく、実際、大量のデータを保管・処理するデータセンターという建物自体を増設しなければならないレベルに到達しようとしています。マシンルーム全体がハードディスクで埋め尽くすような環境、数百万人のネットショッピングの注文データやクレジットカードの取引情報などが巨大な建物の中にあるハードディスクのお化けに入っていると想像してみてください。身近な例では、FacebookやTwitterに世界中の人々が動画や写真を投稿していると想像すると、とてつもなく膨大な量のデータが蓄積されていることが容易に想像できるかと思います。

しかし、ビッグデータとは、そのような膨大な量のデータを蓄積・処理することだけを指す言葉なのでしょうか?日本の総務省が公表している「平成24年版 情報通信白書のポイント」に「ビッグデータとは何か?」が記載されています。

総務省の「平成24年版 情報通信白書のポイント」
http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc121410.html

上記の情報通信白書のポイントの「図表2-1-4-1 ビッグデータを構成する各種データ(例)」を見ると、ビッグデータとは、センサーデータ、ログデータ、オペレーションのデータなどの他に、普段私達が利用している電子メールやオフィス文書などもビッグデータを構成するデータに含まれています。

 

情報通信白書

出典:総務省「平成24年版 情報通信白書のポイント」図表2-1-4-1

ここでは、ビッグデータを「事業に役立つ知見を導出するためのデータ」としています。サイズやファイル数といった量的なものだけでなく、利活用という質的なことに重要な意味を持つデータを「ビッグデータ」としてとらえることの重要性が理解できます。実際に、データセンターをいくつも増設しなければならないレベルのデータ量を取り使う企業は、米国の先進的な巨大企業や有名な広告業、欧州の研究機関など、ごく一部に限定されます。

欧米のビッグデータを取り扱う企業や組織体の多くは、建物内にあるマシンルームの一室に収まるデータを利活用していることがほとんどです。多くの企業は、自社が持つデータをできるだけ多角的に分析したいと考えています。データサイズがそれほど大きくなくても、さまざまなパラメータが絡み合うため、処理に膨大な時間がかかってしまうのです。一つ例をあげてみます。全国に散らばる各支店から出力されるPOSデータの売り上げ明細データ、会員情報、店舗データをもとに、支店別の売り上げ集計処理を行うようなシステムを考えます。ここでは、POSデータの売り上げ明細データが以下のような形式で得られるとします。

1,2011-07-15,9,41,7,368,41,500,1
2,2011-01-28,2,44,1,1000,118,1200,6
3,2011-04-02,2,20,10,828,37,400,2
4,2011-08-07,2,42,4,395,94,1000,1
...
...
499999999,2011-06-10,10,16,7,836,68,700,2
500000000,2010-11-07,9,43,5,607,126,1300,10

各行には、例えば、商品の購入年月日や、購入した会員の年齢、性別コード、商品コード、購入金額、購入した個数などが記録されます。上記のデータは、5億行(レコード数が5億)のデータです。この売り上げ明細データのサイズは、わずか20ギガバイト程度しかありません。

しかし、この20ギガバイト程度のデータの集計処理には、動作周波数が2GHz以上の強力なサーバー用CPUと20ギガバイト以上のメモリを搭載したサーバーマシンで一般的なオープンソースのデータベースソフトを駆使しても30分程度かかります。

一方で、数台のサーバーでHadoopと呼ばれる分散処理基盤を構成し、SQLに似た問い合わせ処理が可能なオープンソースソフトウェアのHive(ハイブ)使うと、約1分程度で集計処理が完了します。

このように、データサイズが数十ギガバイト程度でも、「どう処理するか」という目的によって大幅な時間がかかるものが存在することがわかります。また、そのような処理は、分散処理基盤を導入することで、大幅な処理時間の短縮を実現できることもわかります。

このように、ビッグデータとは、単に量ではなく、処理の“質”が重要であり、そのデータの性質を見極めた上で、ビッグデータ処理基盤の選択・導入を行わなければならないことが分かります。今回、例にあげた都道府県別の売り上げ集計処理については、具体的な処理方法を記載した技術文書を日本HPのWebサイトから入手可能です。一読することをお勧めします。

日本HPが提供する技術文書「Hadoop HiveとMySQLの利用例」
http://h50146.www5.hp.com/products/software/oe/linux/mainstream/support/lcc/pdf/edlin_20120229.pdf

ビッグデータはどこにある?

一般的に、データは、すぐに利活用が行える状態にしておくことが重要ですが、個人情報や企業秘密に関わる情報が含まれることが多いため、物理的なセキュリティ対策がしっかりと施されているデータセンターに厳重に保管されることがほとんどです。

膨張するビッグデータをデータセンターに保管するというと、一見データセンターをどんどん増設するように思えますが、実際には、データセンター内のストレージシステムの標準化や高密度化、利用すべきソフトウェアのモジュール化などを行い、施設内で利用するハードウェアやソフトウェア資産の利用効率を高めることを合わせて考慮しなければなりません。

実際、HPは、過去にデータセンターの統合プロジェクトを進め、2005年に85か所あったデータセンターを2008年には6か所に統合し、機器の標準化と運用の自動化、電力と冷却の最適化を行い、3年で約10億ドルのコスト削減を実現しています。また、データセンターの統合だけでなく、HP自身が自社のビッグデータ処理基盤ソフトウェアのVertica(バーティカ)とオープンソースのHadoopを駆使し、購買行動分析を行っています。

米国国防総省では、次世代のクラウド基盤において、端末機器、衛星、車両などのセンサーから得られるデータを収集し、セキュアなクラウド基盤でいかにデータを有効利用するかが課題となっています。現在、米国国防総省の情報処理基盤は、HPのネットワークインフラとコンテナ型のデータセンター「EcoPOD」が採用されていますが、今後は、ビッグデータを見据えたクラウド基盤の整備が期待されています。

データセンター統合
図. データセンター統合


ペンタゴンとEcoPOD
図. ペンタゴンとEcoPOD

膨張するビッグデータ


総務省の「平成24年版 情報通信白書のポイント」の図表2-1-4-1をよく見ると、センサーデータや、ウェブサイトデータ、マルチメディアデータ、ソーシャルメディアデータ、ログデータなど、企業内で膨大に蓄積されている種類のデータが挙げられています。

これらの”膨大な量”と言われるデータは、私達の何気ない普段の生活にどのように結びついているのでしょうか?ビッグデータというもの自体、どのように実生活に活用されているか、普段の生活からは、ほとんど見えないのではないかと思います。

ビッグデータそのものは、人間の生活に分かりやすい形として見えるものというよりは、むしろ、そのほとんどは、携帯端末、自動車、産業用機械、購買システム、企業内のITシステムなどから日々生成されているデータであり、しかるべき場所に蓄積されたものといえます。

データの種類の例としては、品質検査データ、製造テスト時の計測データ、研究所の実験データ、コールセンターにおける通話記録、監視カメラの映像データなどさまざまです。これらのデータは、日々の生活において、その多くは、端末の機械やITシステムが自動的に生成し、データセンターに送信され、蓄積されます。

Facebookでは、毎日500TB以上の新規データが生成されていますし、欧州原子核研究機構(CERN)の大型実験施設では、毎秒1ペタバイドの実験データが生成されるといわれています。インターネット全体では、1日あたり1エクサバイトのデータが増加していることになり、これはDVD2億5千万枚に相当するデータ量です。

このようなデータは、単にストレージシステムやデータセンターの増設といった話で片づけることはできず、データの圧縮方法や、データの重要度の定義、処理方法の効率化など、その企業や組織体にとって、膨大なデータからいかに価値のあるデータを見つけ出すのかが重要になります。データサイズが膨張すると、価値あるデータの発見がますます困難になるため、適切なビッグデータ分析処理基盤と妥当な探索手法の確立、分析ノウハウが必要になります。

 

情報爆発.png


図. 情報爆発

しかし、実際には、生のデータそのものではなく、結果のサマリだけを保存している場合や、大量のデータをすぐに取り出すことができないテープ装置などに退避している場合も多くみられ、ビッグデータの利活用がすぐに行える環境になっていないのが実情です。

あるいは、大量のデータを生成・保有しているにも関わらず、分析を行う人員の育成コストや分析用アプリケーションの開発に係る投資の費用対効果が不透明であるという理由から、分析自体を行っていないことがほとんどです。

従来の数ギガバイト〜数十ギガバイト程度のデータであれば、従来型のデータベースシステムを使って、ある程度許容できる時間内に収まる処理が可能かもしれませんが、データサイズがテラバイトやペタバイト級になると、スケールアウトメリットが得られるビッグデータ処理基盤を導入せざるを得なくなります。そうなれば、従来のデータベースシステム以外に、新たにビッグデータ処理基盤の導入を検討しなくてはなりません。

さらにビッグデータ処理基盤のソフトウェア選定や、利活用を容易に行えるようにするための可視化ツールなどの整備も必要になります。ビッグデータは、その量や処理の仕方だけでなく、周辺のエコシステムの整備も頭に入れておく必要があります。

ビッグデータ処理基盤

図. ビッグデータ処理基盤


第2回では、ビッグデータを処理するための基盤技術であるオープンソースソフトウェアに焦点を当てます。また、ビッグデータ処理基盤の今後の展望を述べます。

お楽しみに

 


古賀さんの初の著書となる『CentOS 7実践ガイド』が、2015年2月25日に発売されます。お楽しみに。

 

 

平成24年版情報通信白書 については、以下のライセンスに従います。

クリエイティブコモンズ

平成24年版情報通信白書 by 総務省 is licensed under a Creative Commons 表示 2.1 日本 License.

http://creativecommons.org/licenses/by/2.1/jp/

各種お問い合わせ

サイオスOSSよろず相談室(1)

問い合わせボタン

最新の情報
[第15回] Linux/OSS エバンジェリスト古賀政純の『オープンソース・Linux超入門』 Linuxサーバーのためのハードウェア設定 ~ Hyper-Threading ~ 2017年06月21日
わかっておきたいセキュリティ: 第5回 VirusTotal at Home/Work「Malice」 2017年05月10日
わかっておきたいセキュリティ: 第4回 IRMA (Incident Response Malware Analysis) 2017年03月29日
わかっておきたいセキュリティ: 第3回 マルウェア解析サンドボックス「Cuckoo」との連携 その2 2017年02月22日
[第14回] Linux/OSS エバンジェリスト古賀政純の 『オープンソース・Linux超入門』 システム要件において検討すべき点 その4 2017年02月08日
[第13回] Linux/OSS エバンジェリスト古賀政純の 『オープンソース・Linux超入門』 システム要件において検討すべき点 その3 2017年02月01日
[第12回] Linux/OSS エバンジェリスト古賀政純の 『オープンソース・Linux超入門』 システム要件において検討すべき点 その2 2017年01月25日
[第11回] Linux/OSS エバンジェリスト古賀政純の『オープンソース・Linux超入門』 システム要件において検討すべき点 その1 2017年01月18日
Python人材育成の支援を目的としたPythonエンジニア育成推進協会の活動とは? 2016年12月21日
わかっておきたいセキュリティ: 第2回 マルウェア解析サンドボックス「Cuckoo」との連携 2016年12月14日
可知豊の『 わかっておきたい、オープンソースライセンス』: 第3回 オープンソースライセンスの使い方をわかっておきたい 2016年12月08日
可知豊の『 わかっておきたい、オープンソースライセンス』: 第2回 色々なオープンソースライセンスをわかっておきたい 2016年11月30日
可知豊の『 わかっておきたい、オープンソースライセンス』: 第1回 著作権とライセンスをわかっておきたい 2016年11月17日
わかっておきたいセキュリティ: 第1回 マルウェア解析サンドボックス「Cuckoo」 2016年11月02日
[第10回] Linux/OSS エヴァンジェリスト古賀政純の 『オープンソース・Linux超入門』 Linuxサーバーシステム導入前の検討~ RHELを知る ~ 2016年10月26日
[第9回] Linux/OSS エヴァンジェリスト古賀政純の 『オープンソース・Linux超入門』 Linuxサーバーシステム導入前の検討~ Ubuntu Serverを知る ~ 2016年10月19日
[第8回] Linux/OSS エヴァンジェリスト古賀政純の 『オープンソース・Linux超入門』  Linuxサーバーシステム導入前の検討~ SUSEを知る ~ 2016年10月12日
[第7回] Linux/OSS エヴァンジェリスト古賀政純の 『オープンソース・Linux超入門』~「初心者でもわかる、Linuxサーバーシステム活用者が知っておくべきポイント」(後編) 2016年08月09日
[第6回] Linux/OSS エヴァンジェリスト古賀政純の 『オープンソース・Linux超入門』~「初心者でもわかる、Linuxサーバーシステム活用者が知っておくべきポイント」(前編) 2016年08月02日
[第5回] Linux/OSS エヴァンジェリスト古賀政純の 『オープンソース・Linux超入門』~「ミッションクリティカルシステムとオープンソース・Linux」(後編) 2016年06月22日
最新の情報 - もっと...