IT系This is a featured page

Big DataとMassively Parallel Computing

Internet規模のBig DataのMassively Parallel 処理技術における
Googleの独占傾向の明白化とインフラオープンソース化の流れ

背景
1 2004年の米政府のU.S. competitiveness in high performance computing"報告書
HPC利用環境の劇的改善を要求、過去30年間の投資の成果がまったく見られないと指摘して
二つの目標実現を要求
1) HPCの具体的な実用目的への適用までの時間の劇的短縮
(特定ハードウエア用インターフェース、ドライバー開発に終始する状況からの脱却を要求)、
    http://atmarkit.co.jp/news/200802/21/sgi.html
又はhttp://www.flickr.com/photos/56716141@N00/tags/massivelyparallel/ (DSCN0024,25,27)
2) デスクトップからハイエンドまで、生産性向上実現のための共通のソフトウエア環境 
2 インターネット規模のBig Dataの変換とは:Transforming Big Data http://www.hpcwire.com/features/17910714.html
Internetの普及により取り扱うデータ量は、Petabyteに達する。“Petabyte Age”では、データ量の桁違いの大きさにより、従来の常識は通用しない。情報処理に関していえば、次元における不可知論的統計学dimentionally agnostic statisticsの世界である。
Data Intensive Computingとは、データ変換システムの開発そのものである。
Supercomputingではいまや価値があるのはハードウエアではなく、それに関与する人間そのものである。
3 End of Theoryと Internet規模でのデータ処理におけるRDBMS時代の終わり  h) http://www.wired.com/print/science/discoveries/magazine/16-07/pb_theory
“All models are wrong, and increasingly you can succeed without them”,
an update to Google Box’s maxim
- Peter Norvig, Google’s research director, March 2008
  (すべてのモデルは誤っており、(何らかの特定理論モデルなしでGoogleは)成功する可能性が高い。
 4 Big Data Procssing(処理・解釈)におけるGoogleアーキテクチャーの圧倒的な優位- Internet業界(含むMS, IBM)は追随に必死。
   Massively-parallel distributed computing,
scalability確保プロセスの自動化、
cloud computing http://network.nature.com/people/basanta/blog/2008/06/28/cloud-computing-and-science
Chubby and Paxos ((file/record lock/unlock ,failure recovery protocols in massively-parallel computing)等
http://www.hpcwire.com/topic/networks/17910529.htm
http://markets.hpcwire.com/taborcomm?Account=hpcwire&GUID=5083208&Page=MediaViewer&Ticker=PVSW

I.1998年のMicrosoft アーキテクチャー選択:なぜ、MicrosoftはYahoo買収に固執するか
II.Google の検索システムとは
III.Google 検索システムのオープンソース化
IV.Massively Parallel Computation(MPPにおけるfile close, failure recoveryメカニズム)

I. 1998年のMicrosoft アーキテクチャー選択 なぜ、MicrosoftYahoo買収に固執するか
GoogleのMapReduceに対抗するYahooのHadoop, 検索市場の70%はGoogleが支配
http://arnoldit.com/wordpress/2008/07/08/microsoft-architecture-in-1998/
http://www.networkworld.com/community/node/30311

 Microsoft
 1)Disk IOのボトルネック(read/write時)解消に焦点 b)、
2)特定メーカーの専用ハードに固執 a) 
3)手作業でのシステムメンテナンス、スケーラビリティの実現

 Google
1)massively-parallel distributed データ処理 c)
http://tatsubori-paper.blogspot.com/
2) commodity server d)
3)スケーラビリティ自動化の壁の克服
(http://blogs.zdnet.com/BTL/?p=9027&tag=nl.e622
http://www.networkworld.com/community/node/30311
  http://www.intelligententerprise.com/blog/archives/2008/07/two_years_to_in.html
4) Chubby (file/record lock/unlock) and Paxos (failure recovery protocols in massively-parallel computing) http://arnoldit.com/wordpress/2008/07/26/google-chubby-and-paxos

II.Google 検索システムの基幹部分
 1)Big Table,
2)Map-Reduce, 多次元データでrelational databaseに代替
3)Beehive方式、http://blogs.zdnet.com/BTL/?p=9027&tag=nl.e622
4) Chubby, Paxos http://arnoldit.com/wordpress/2008/07/26/google-chubby-and-paxos
5)Virtualization, http://inernetnewscom/dev-news/print.php/3764026 参照
(interoperabilityとstandard architectureの実現が課題?)

III.Google 検索システムのオープンソース化  
http://gigaom.com/2008/06/15/the-cloud-opens-up/
http://network.nature.com/blogs/user/basanta/2008/06/28/cloud-computing-and-science
1) Provisioning: Enomalism phython-based web server application, multiple hypervisor対応
2) Linking your program to useful systems: Eucalyptus, an elastic computing architechture
3) Hadoop: Map-Reduceのopen-source版massively parallel computationデータ処理とGFS(Google File Sytstem)
4) Hypertable:Bigtable(master, tablet server, client、分散型データベース・ストレージ、負荷分散)のOpen SourceMassively parallel high performance database
http://gigazine.net/index.php?/news/comments/20080208_hypertable/
"Googleの誇る巨大データベースBigTableのオープンソースクローン「Hypertable」"
5)Puppet (Reflesh the Net), server management software that automates scaling infrastructure
http://gigaom.com/2008/06/15/the-cloud-opens-up/
6)Google 技術の個別的商品化
Kickfire (MySQLパラレル処理専用on board cache, 専用メモリ http://blogs.zdnet.com/BTL/?p=8638) 
Aster Data (http://blogs.zdnet.com/BTL/?p=9027&tag=nl.e622
Beehive方式によるスケーラビリティ自動化、分散処理、クラウドコンピューティング 
http://network.nature.com/blogs/user/basanta/2008/06/28/cloud-computing-and-science
Greenplum (http://blogs.zdnet.com/Gardner/?p=2718)
MapReduceをSQL queryと併用combine可能(Aster nCluster内で)

IV.Massively Parallel Computingの実現
1)汎用言語開発 Sawzall http://tatsubori-paper.blogspot.com , Open CL f) g)
2)Domain Speficic Parallell Programming
適用分野例
Parallel Machines社 ( http://www.parallelmachines.com)
handling in massively parallel processing
unstructured data (text, HTML, email, audio transcript),
semi-structured data (RSS, Atom, XML, JSON, OPML) ,
structured data (relational, semantic, RDF)
enterprise service bus data from a variety of sources
Microsoft  http://www.computingatscale.com/?86
 または http://www.flickr.com/photos/56716141@N00/tags/massivelyparallel/
3)GPUによるDesktop HPCの実現, 価格革命と加速するmassively-parallel computing環境導入競争 http://atmarkit.co.jp/news/200802/21/sgi.html
又はhttp://www.flickr.com/photos/56716141@N00/tags/massivelyparallel/
http://www.wired.com/techbiz/it/news/2008/06/gpu_power
http://www.dvhardware.net/article28316.html
http://www.pr-inside.com/print661089.htm
http://forums.vr-zone.com/showthread.php?t=317957 Nvidia: "Intel Larrabee like a GPU from 2006"
http://www.macsimumnews.com/index.php/archive/nvidia_cuda_20_released_to_production//
"Nvidia CUDA 2.0 released to production"
4)Massively parallel computing環境の導入競争(米有力研究機関、大学) e)
5) Productivity layer用Domain Specific Languageの開発に焦点
http://www.computingatscale.com/?p=75
又は http://www.flickr.com/photos/56716141@N00/tags/massivelyparallel/

a) clone, partition on name-brand hardware
b) farm pairs
c) in distributed setup
d) dynamic allocation
e) Nvidia : CUDA Center of Excellence at UIUC, CUDA c-compliler download, 60,000
Google/IBM: UWashington, Carnegie-Mellon, MIT, Stanford, UMaryland での cloud computing教育開始
Google 追従傾向の激化(MS, IBM 他)
GPUベースの massively-parallel ComputingによるDesktop HPCの実現で適用分野の急拡大
数千人のCUDA developer (oil, gas exploration, medical imaging その他scientific research)
f) Apple, AMC, Nvidia, ARM, FreeScale, IBM, Imagination, Nokia, Motrola, Qualcomm, Samsung, TI
g) Desktop HPCの到来とOpen CLの普及でHPCプロジェクトのためのスパコン使用許可、補助金申請のための国内旅行は過去のものとなるか?http://www.wired.com/techbiz/it/news/2008/06/gpu_power
h) 別紙、End of Theory 抄訳参照。Ventorの高速sequencerとHPC利用の統計的解析ツールによるショットガン遺伝子解析。
i)別紙 Transforming Big Data 抄訳参照


No user avatar
ishida
Latest page update: made by ishida , Dec 9 2008, 8:18 AM EST (about this update About This Update ishida Edited by ishida

1 word added
1 word deleted

view changes

- complete history)
Keyword tags: None
More Info: links to this page

Anonymous  (Get credit for your thread)


There are no threads for this page.  Be the first to start a new thread.