Big DataとMassively Parallel ComputingInternet規模のBig DataのMassively Parallel 処理技術におけるGoogleの独占傾向の明白化とインフラオープンソース化の流れ背景1 2004年の米政府の”U.S. competitiveness in high performance computing"報告書HPC利用環境の劇的改善を要求、過去30年間の投資の成果がまったく見られないと指摘して
二つの目標実現を要求
1) HPCの具体的な実用目的への適用までの時間の劇的短縮
(特定ハードウエア用インターフェース、ドライバー開発に終始する状況からの脱却を要求)、
http://atmarkit.co.jp/news/200802/21/sgi.html 又は
http://www.flickr.com/photos/56716141@N00/ (DSCN0024,25,27)
2) デスクトップからハイエンドまで、生産性向上実現のための共通のソフトウエア環境
2 (インターネット規模の)”Big Data”の変換とは:Transforming Big Data http://www.hpcwire.com/features/17910714.htmlInternetの普及により取り扱うデータ量は、Petabyteに達する。“Petabyte Age”では、データ量の桁違いの大きさにより、従来の常識は通用しない。情報処理に関していえば、次元における不可知論的統計学dimentionally agnostic statisticsの世界である。
Data Intensive Computingとは、データ変換システムの開発そのものである。
Supercomputingではいまや価値があるのはハードウエアではなく、それに関与する人間そのものである。
3 ”End of Theory”と Internet規模でのデータ処理におけるRDBMS時代の終わり h)
http://www.wired.com/print/science/discoveries/magazine/16-07/pb_theory “All models are wrong, and increasingly you can succeed without them”,
an update to Google Box’s maxim
- Peter Norvig, Google’s research director, March 2008
(すべてのモデルは誤っており、(何らかの特定理論モデルなしでGoogleは)成功する可能性が高い。
4 Big Data Procssing(処理・解釈)におけるGoogleアーキテクチャーの圧倒的な優位- Internet業界(含むMS, IBM)は追随に必死。
Massively-parallel distributed computing,
scalability確保プロセスの自動化、
cloud computing
http://network.nature.com/people/basanta/blog/2008/06/28/cloud-computing-and-scienceChubby and Paxos ((file/record lock/unlock ,failure recovery protocols in massively-parallel computing)等
http://www.hpcwire.com/topic/networks/17910529.htmhttp://markets.hpcwire.com/taborcomm?Account=hpcwire&GUID=5083208&Page=MediaViewer&Ticker=PVSW I.1998年のMicrosoft アーキテクチャー選択:なぜ、MicrosoftはYahoo買収に固執するかII.Google の検索システムとはIII.Google 検索システムのオープンソース化IV.Massively Parallel Computation(MPPにおけるfile close, failure recoveryメカニズム)I. 1998年のMicrosoft アーキテクチャー選択: なぜ、MicrosoftはYahoo買収に固執するかGoogleのMapReduceに対抗するYahooのHadoop, 検索市場の70%はGoogleが支配
http://arnoldit.com/wordpress/2008/07/08/microsoft-architecture-in-1998/http://www.networkworld.com/community/node/30311 Microsoft 1)Disk IOのボトルネック(read/write時)解消に焦点 b)、
2)特定メーカーの専用ハードに固執 a)
3)手作業でのシステムメンテナンス、スケーラビリティの実現
Google 1)massively-parallel distributed データ処理 c)
http://tatsubori-paper.blogspot.com/
2) commodity server d)
3)スケーラビリティ自動化の壁の克服
(
http://blogs.zdnet.com/BTL/?p=9027&tag=nl.e622http://www.networkworld.com/community/node/30311 http://www.intelligententerprise.com/blog/archives/2008/07/two_years_to_in.html4) Chubby (file/record lock/unlock) and Paxos (failure recovery protocols in massively-parallel computing)
http://arnoldit.com/wordpress/2008/07/26/google-chubby-and-paxosII.Google 検索システムの基幹部分 1)Big Table,
2)Map-Reduce, 多次元データでrelational databaseに代替
3)Beehive方式、
http://blogs.zdnet.com/BTL/?p=9027&tag=nl.e622 4) Chubby, Paxos
http://arnoldit.com/wordpress/2008/07/26/google-chubby-and-paxos5)Virtualization,
http://inernetnewscom/dev-news/print.php/3764026 参照
(interoperabilityとstandard architectureの実現が課題?)
III.Google 検索システムのオープンソース化 http://gigaom.com/2008/06/15/the-cloud-opens-up/http://network.nature.com/blogs/user/basanta/2008/06/28/cloud-computing-and-science 1) Provisioning: Enomalism phython-based web server application, multiple hypervisor対応
2) Linking your program to useful systems: Eucalyptus, an elastic computing architechture
3) Hadoop: Map-Reduceのopen-source版massively parallel computationデータ処理とGFS(Google File Sytstem)
4) Hypertable:Bigtable(master, tablet server, client、分散型データベース・ストレージ、負荷分散)のOpen SourceMassively parallel high performance database
http://gigazine.net/index.php?/news/comments/20080208_hypertable/ "Googleの誇る巨大データベースBigTableのオープンソースクローン「Hypertable」"
5)Puppet (Reflesh the Net), server management software that automates scaling infrastructure
http://gigaom.com/2008/06/15/the-cloud-opens-up/6)Google 技術の個別的商品化
Kickfire (MySQLパラレル処理専用on board cache, 専用メモリ http://blogs.zdnet.com/BTL/?p=8638)
Aster Data (
http://blogs.zdnet.com/BTL/?p=9027&tag=nl.e622Beehive方式によるスケーラビリティ自動化、分散処理、クラウドコンピューティング
http://network.nature.com/blogs/user/basanta/2008/06/28/cloud-computing-and-science )
Greenplum (
http://blogs.zdnet.com/Gardner/?p=2718)
MapReduceをSQL queryと併用combine可能(Aster nCluster内で)
IV.Massively Parallel Computingの実現1)汎用言語開発 Sawzall http://tatsubori-paper.blogspot.com , Open CL f) g)
2)Domain Speficic Parallell Programming
適用分野例
Parallel Machines社 (
http://www.parallelmachines.com)
handling in massively parallel processing
unstructured data (text, HTML, email, audio transcript),
semi-structured data (RSS, Atom, XML, JSON, OPML) ,
structured data (relational, semantic, RDF)
enterprise service bus data from a variety of sources
Microsoft
http://www.computingatscale.com/?86 または
http://www.flickr.com/photos/56716141 @N00/ (DSCN0023)
3)GPUによるDesktop HPCの実現, 価格革命と加速するmassively-parallel computing環境導入競争 http://atmarkit.co.jp/news/200802/21/sgi.html
又は
http://www.flickr.com/photos/56716141 @N00/ (DSCN0024,25,27)
http://www.wired.com/techbiz/it/news/2008/06/gpu_power http://www.dvhardware.net/article28316.html http://www.pr-inside.com/print661089.htm http://forums.vr-zone.com/showthread.php?t=317957 Nvidia: "Intel Larrabee like a GPU from 2006"
http://www.macsimumnews.com/index.php/archive/nvidia_cuda_20_released_to_production//"Nvidia CUDA 2.0 released to production"
4)Massively parallel computing環境の導入競争(米有力研究機関、大学) e)
5) Productivity layer用Domain Specific Languageの開発に焦点
http://www.computingatscale.com/?p=75又は
http://www.flickr.com/photos/56716141@N00/ (DSCN0021,22)
注
a) clone, partition on name-brand hardware
b) farm pairs
c) in distributed setup
d) dynamic allocation
e) Nvidia : CUDA Center of Excellence at UIUC, CUDA c-compliler download, 60,000
Google/IBM: UWashington, Carnegie-Mellon, MIT, Stanford, UMaryland での cloud computing教育開始
Google 追従傾向の激化(MS, IBM 他)
GPUベースの massively-parallel ComputingによるDesktop HPCの実現で適用分野の急拡大
数千人のCUDA developer (oil, gas exploration, medical imaging その他scientific research)
f) Apple, AMC, Nvidia, ARM, FreeScale, IBM, Imagination, Nokia, Motrola, Qualcomm, Samsung, TI
g) Desktop HPCの到来とOpen CLの普及でHPCプロジェクトのためのスパコン使用許可、補助金申請のための国内旅行は過去のものとなるか?
http://www.wired.com/techbiz/it/news/2008/06/gpu_powerh) 別紙、End of Theory 抄訳参照。Ventorの高速sequencerとHPC利用の統計的解析ツールによるショットガン遺伝子解析。
i)別紙 Transforming Big Data 抄訳参照