九大理学部ニュース ホーム きゅうりくん

ビッグデータ処理で世界1位(2014年7月29日)

スーパーコンピュータ等のビッグデータ処理性能を計測するベンチマークテストで世界1位を獲得

藤澤教授らの研究チームは大規模なグラフを処理するソフトウェアを独自に開発し、「京」コンピュータやTSUBAME2.5などの様々なスーパーコンピュータ上でビッグデータ処理性能を計測するGraph500及びGreen Graph500ベンチマークテストを実施した結果、両者において世界1位となりました。この成果はドイツのライプチヒで開催されたスーパーコンピュータの国際会議「ISC’14 (International Supercomputing Conference) 」で発表されました。

藤澤克樹(マス・フォア・インダストリ研究所、数理学府兼任)

巨大なデータ解析の重要性

情報通信技術などの進展に伴い、多様で膨大なデータを活用して新しい価値を生み出すというビッグデータに関する話題を各種メディアで目にするようになりました。ビッグデータの例としてはソーシャルメディアデータ、カスタマーデータ、サーバログデータなどが挙げられます。

これらのような複雑に絡みあったデータを解析する方法として、グラフ解析があります。ここで言うグラフは『点』の集合とそれを結ぶ『枝』の集合から構成されるもので、データのつながりを表現できます。例えばTwitterなどのソーシャルネットワークなら、一人一人のユーザを『点』と見なし、ユーザ間を結ぶフォロー関係などを『枝』と見なします。様々な応用分野において解析対象とする事象の関係を『点』と『枝』で表現できます(図1)。さらに各枝を連結させてグラフを構成して、目的に応じて最短路検索などのグラフ解析を行います。またグラフ解析の結果は元の応用問題の分析や理解のために使用されます。実際にカーナビゲーションシステムでは道路ネットワークがグラフデータとして内蔵されていて、出発地点と目的地点間の最短路検索を行っています。

このように社会における実データをグラフデータに変換して、計算機で高速処理する需要が非常に高まっています。

201407_big_fig1
図1:グラフ解析の利用方法と応用分野。

スパコンのベンチマークテスト

スーパーコンピュータ(スパコン)の性能を調べるベンチマークテストとしてはTop 500が有名ですが、このテストでは主に数値計算能力を測定しています。しかし今日ではスパコンの応用が幅広い分野に及び、大規模グラフ解析などのビッグデータ処理用途においてはTop 500による評価は難しくなりました。

そのため、大規模データの処理性能を計測するGraph 500及びGreen Graph500というベンチマークテストが開始されました。Green Graph500ではグラフ探索性能と共に省電力性を測っています。昨今の電力事情などを考慮すると省電力性も極めて重要ですので、省電力グラフ探索の技術は多方面への応用が期待されています。

ソフトウェアの開発とベンチマークテストの結果

藤澤教授らの共同研究チームは、次世代のスパコン上で大規模なグラフの高速な探索処理を行うソフトウェアの開発を進めてきました。先進的なソフトウェア技術を高度に組み合わせることにより、モバイルデバイスからスパコンに至るまで様々なコンピュータ上で高速かつ省電力なグラフ処理を可能にしました。このたび独自に開発したソフトウェアを用いて、Graph500及びGreen Graph500ベンチマークを実施し、両者において世界1位等の高成績を達成しました。

Graph500ベンチマークでは、「京」コンピュータを用いて超巨大グラフに対して17,977 GTEPS(Giga TEPS)の性能を達成して世界1位となりました。17,977 GTEPSとは1秒間に約17兆9770億枝のグラフ探索が出来ることを意味します。また、SMP(共有メモリ型)マシンや1台のサーバのくくりでもそれぞれ最速となり、開発したソフトウェアはスパコンから1台のサーバまで非常に高性能であることが示されました。

Green Graph500ベンチマークのビッグデータ部門では、1位から7位までを独占しました。1位の結果では1台のサーバ上で、わずか1ワットの電力で1秒間あたりに約 5,912万枝数のグラフ探索が行えることを実証しました。また、スモールデータ部門では、SONY Android携帯Xperia SO-01Fの測定で235.06 MTEPS/W を達成して、世界2位を獲得しました。これは1秒間あたりに 2.35億枝探索する性能をわずか1ワットで達成できる電力性能です。

ツイッターネットワークの解析

Graph500で用いたグラフ解析の高速性能をTwitterネットワークの解析等に用いることができます(図2)。Twitterのユーザとフォロー関係を表したFellowship network 2009 (点数4100万, 枝数24億) を用いて、特定のユーザについて解析を行なっています。これによって、あるユーザから何ホップ以内に何人のユーザが存在しているかを高速に探索することが可能になりました。この計算では24億枝のグラフに対してわずか0.069秒で解析を完了しています。

201407_big_fig2
図2:Graph500の技術を応用したTwitterネットワーク解析。

今後の展開

大規模なグラフ解析は、スパコンの新しい応用として注目を集めています。数年以内に数千万規模の並列計算での高性能な超大規模グラフ処理技術が開発されていくと予想されています。これによって防災計画の策定、災害時の避難と誘導、スマートグリッドによる安定な電力供給など、安全安心な社会基盤実現に貢献することが可能となるでしょう(図3)。

201407_big_fig3
図3:大規模グラフ解析とその応用。

研究こぼれ話

Graph500とGreen Graph500は世界中の研究機関が参加しているベンチマークテストですが、日米が2強で他の国を圧倒しています。

より詳しく知りたい方は・・・
タイトル
スーパーコンピュータ等のビッグデータ処理性能を計測するベンチマークテストで世界1位を獲得 (Abstract)
著者
藤澤克樹
雑誌名
PRESS RELEASE (2014/06/25)
個人HP
Katsuki Fujisawa
プロジェクト
ポストペタスケールシステムにおける超大規模グラフ最適化基盤
キーワード
グラフ解析、スーパーコンピュータ