Big DataとMassively Parallel ComputingThis is a featured page

Big DataとMassively Parallel Computing

Internet規模のBig DataのMassively Parallel 処理技術における
Googleの独占傾向の明白化とインフラオープンソース化の流れ

背景
1 2004年の米政府のU.S. competitiveness in high performance computing"報告書
HPC利用環境の劇的改善を要求、過去30年間の投資の成果がまったく見られないと指摘して
二つの目標実現を要求
1) HPCの具体的な実用目的への適用までの時間の劇的短縮
(特定ハードウエア用インターフェース、ドライバー開発に終始する状況からの脱却を要求)、
    http://atmarkit.co.jp/news/200802/21/sgi.html
又はhttp://www.flickr.com/photos/56716141@N00/ (DSCN0024,25,27)
2) デスクトップからハイエンドまで、生産性向上実現のための共通のソフトウエア環境 
2 インターネット規模のBig Dataの変換とは:Transforming Big Data http://www.hpcwire.com/features/17910714.html
Internetの普及により取り扱うデータ量は、Petabyteに達する。“Petabyte Age”では、データ量の桁違いの大きさにより、従来の常識は通用しない。情報処理に関していえば、次元における不可知論的統計学dimentionally agnostic statisticsの世界である。
Data Intensive Computingとは、データ変換システムの開発そのものである。
Supercomputingではいまや価値があるのはハードウエアではなく、それに関与する人間そのものである。
3 End of Theoryと Internet規模でのデータ処理におけるRDBMS時代の終わり  h) http://www.wired.com/print/science/discoveries/magazine/16-07/pb_theory
“All models are wrong, and increasingly you can succeed without them”,
an update to Google Box’s maxim
- Peter Norvig, Google’s research director, March 2008
  (すべてのモデルは誤っており、(何らかの特定理論モデルなしでGoogleは)成功する可能性が高い。
 4 Big Data Procssing(処理・解釈)におけるGoogleアーキテクチャーの圧倒的な優位- Internet業界(含むMS, IBM)は追随に必死。
   Massively-parallel distributed computing,
scalability確保プロセスの自動化、
cloud computing http://network.nature.com/people/basanta/blog/2008/06/28/cloud-computing-and-science
Chubby and Paxos ((file/record lock/unlock ,failure recovery protocols in massively-parallel computing)等
http://www.hpcwire.com/topic/networks/17910529.htm
http://markets.hpcwire.com/taborcomm?Account=hpcwire&GUID=5083208&Page=MediaViewer&Ticker=PVSW

I.1998年のMicrosoft アーキテクチャー選択:なぜ、MicrosoftはYahoo買収に固執するか
II.Google の検索システムとは
III.Google 検索システムのオープンソース化
IV.Massively Parallel Computation(MPPにおけるfile close, failure recoveryメカニズム)

I. 1998年のMicrosoft アーキテクチャー選択 なぜ、MicrosoftYahoo買収に固執するか
GoogleのMapReduceに対抗するYahooのHadoop, 検索市場の70%はGoogleが支配
http://arnoldit.com/wordpress/2008/07/08/microsoft-architecture-in-1998/
http://www.networkworld.com/community/node/30311

 Microsoft
 1)Disk IOのボトルネック(read/write時)解消に焦点 b)、
2)特定メーカーの専用ハードに固執 a) 
3)手作業でのシステムメンテナンス、スケーラビリティの実現

 Google
1)massively-parallel distributed データ処理 c)
http://tatsubori-paper.blogspot.com/
2) commodity server d)
3)スケーラビリティ自動化の壁の克服
(http://blogs.zdnet.com/BTL/?p=9027&tag=nl.e622
http://www.networkworld.com/community/node/30311
  http://www.intelligententerprise.com/blog/archives/2008/07/two_years_to_in.html
4) Chubby (file/record lock/unlock) and Paxos (failure recovery protocols in massively-parallel computing) http://arnoldit.com/wordpress/2008/07/26/google-chubby-and-paxos

II.Google 検索システムの基幹部分
 1)Big Table,
2)Map-Reduce, 多次元データでrelational databaseに代替
3)Beehive方式、http://blogs.zdnet.com/BTL/?p=9027&tag=nl.e622
4) Chubby, Paxos http://arnoldit.com/wordpress/2008/07/26/google-chubby-and-paxos
5)Virtualization, http://inernetnewscom/dev-news/print.php/3764026 参照
(interoperabilityとstandard architectureの実現が課題?)

III.Google 検索システムのオープンソース化  
http://gigaom.com/2008/06/15/the-cloud-opens-up/
http://network.nature.com/blogs/user/basanta/2008/06/28/cloud-computing-and-science
1) Provisioning: Enomalism phython-based web server application, multiple hypervisor対応
2) Linking your program to useful systems: Eucalyptus, an elastic computing architechture
3) Hadoop: Map-Reduceのopen-source版massively parallel computationデータ処理とGFS(Google File Sytstem)
4) Hypertable:Bigtable(master, tablet server, client、分散型データベース・ストレージ、負荷分散)のOpen SourceMassively parallel high performance database
http://gigazine.net/index.php?/news/comments/20080208_hypertable/
"Googleの誇る巨大データベースBigTableのオープンソースクローン「Hypertable」"
5)Puppet (Reflesh the Net), server management software that automates scaling infrastructure
http://gigaom.com/2008/06/15/the-cloud-opens-up/
6)Google 技術の個別的商品化
Kickfire (MySQLパラレル処理専用on board cache, 専用メモリ http://blogs.zdnet.com/BTL/?p=8638) 
Aster Data (http://blogs.zdnet.com/BTL/?p=9027&tag=nl.e622
Beehive方式によるスケーラビリティ自動化、分散処理、クラウドコンピューティング 
http://network.nature.com/blogs/user/basanta/2008/06/28/cloud-computing-and-science
Greenplum (http://blogs.zdnet.com/Gardner/?p=2718)
MapReduceをSQL queryと併用combine可能(Aster nCluster内で)

IV.Massively Parallel Computingの実現
1)汎用言語開発 Sawzall http://tatsubori-paper.blogspot.com , Open CL f) g)
2)Domain Speficic Parallell Programming
適用分野例
Parallel Machines社 ( http://www.parallelmachines.com)
handling in massively parallel processing
unstructured data (text, HTML, email, audio transcript),
semi-structured data (RSS, Atom, XML, JSON, OPML) ,
structured data (relational, semantic, RDF)
enterprise service bus data from a variety of sources
Microsoft  http://www.computingatscale.com/?86
 またはhttp://www.flickr.com/photos/56716141 @N00/ (DSCN0023)
3)GPUによるDesktop HPCの実現, 価格革命と加速するmassively-parallel computing環境導入競争 http://atmarkit.co.jp/news/200802/21/sgi.html
又はhttp://www.flickr.com/photos/56716141 @N00/ (DSCN0024,25,27)
http://www.wired.com/techbiz/it/news/2008/06/gpu_power
http://www.dvhardware.net/article28316.html
http://www.pr-inside.com/print661089.htm
http://forums.vr-zone.com/showthread.php?t=317957 Nvidia: "Intel Larrabee like a GPU from 2006"
http://www.macsimumnews.com/index.php/archive/nvidia_cuda_20_released_to_production//
"Nvidia CUDA 2.0 released to production"
4)Massively parallel computing環境の導入競争(米有力研究機関、大学) e)
5) Productivity layer用Domain Specific Languageの開発に焦点
http://www.computingatscale.com/?p=75
又は http://www.flickr.com/photos/56716141@N00/ (DSCN0021,22)


a) clone, partition on name-brand hardware
b) farm pairs
c) in distributed setup
d) dynamic allocation
e) Nvidia : CUDA Center of Excellence at UIUC, CUDA c-compliler download, 60,000
Google/IBM: UWashington, Carnegie-Mellon, MIT, Stanford, UMaryland での cloud computing教育開始
Google 追従傾向の激化(MS, IBM 他)
GPUベースの massively-parallel ComputingによるDesktop HPCの実現で適用分野の急拡大
数千人のCUDA developer (oil, gas exploration, medical imaging その他scientific research)
f) Apple, AMC, Nvidia, ARM, FreeScale, IBM, Imagination, Nokia, Motrola, Qualcomm, Samsung, TI
g) Desktop HPCの到来とOpen CLの普及でHPCプロジェクトのためのスパコン使用許可、補助金申請のための国内旅行は過去のものとなるか?http://www.wired.com/techbiz/it/news/2008/06/gpu_power
h) 別紙、End of Theory 抄訳参照。Ventorの高速sequencerとHPC利用の統計的解析ツールによるショットガン遺伝子解析。
i)別紙 Transforming Big Data 抄訳参照


No user avatar
ishida
Latest page update: made by ishida , Mar 5 2009, 1:23 AM EST (about this update About This Update ishida Edited by ishida

465 words added

view changes

- complete history)
More Info: links to this page
There are no threads for this page.  Be the first to start a new thread.

Related Content

  (what's this?Related ContentThanks to keyword tags, links to related pages and threads are added to the bottom of your pages. Up to 15 links are shown, determined by matching tags and by how recently the content was updated; keeping the most current at the top. Share your feedback on Wetpaint Central.)