http://www.it-director.com/business/content.php?cid=10991parallel processing と BI (Business Intelligence)についての技術的検討Podcast: A technical look at parallel processing and BI
Dana Gardner By: Dana Gardner, Principal Analyst, Interarbor Solutions
Published: 8th January 2009
Copyright Interarbor Solutions © 2009インターネット規模のデータ収集、膨大な数量のセンター出力、携帯機器群からのコンテンツによる巨大なデータの集まり、さらに企業内での分析用メタデータmetadataの恐るべき集積が従来のデータ処理モデルを破壊に瀕する限界にまで、追い詰めてしまった。
しかし、マルチコアチップセットmulti-core chipsetsを使ったパラレル処理(並行処理parallel processing)の進展はMapReduceのようなソフトウエアによる新しいアプローチを出現させた。
ここでは、新たな又は場合によっては極限に近い各種のデータセットの要求を満たすカギは何かを考えてみたい。
BriefingsDirect's Dana Gardnerがこれらの疑問を新たなデータ構造の専門家にパネルで投げかけて、以下のポイントについて検討してもらった。具体的にはparallelism,最新データインフラ、MapReduceの統合についてである。
以下はその抜粋である。
これまで、データ量は、長年に亘りMooreの法則に従って増加を続け、さらにそれを超えた伸びを示してきた。
過去、数年間について、従来と異なるところはクロックスピードの18ヶ月ごとの倍増が停止したことである。代わりに、チップ内のcpu coreの数が増加しつつあるが、18ヶ月ごとに倍増ということはない。
従って、データの増加はより早く、チップは基本的に静止しているが、その数は増加しているということになる。
現在、きわめて多くの人々が益々多くのデータを保存、分析しつつある
データのパラレル化(並行処理)は容易である。
必ずしも明らかでないのは、多くのデータが有効な分析を行うのに十分なスピードで分析されていないということである。
これまでに解決済みの中心的な問題点は、処理エンジンにデータを再配分し、計算処理を瞬時に行うことである。
企業は過去、15年から25年間、SQLに膨大な時間を費やしてきた。従って、取引データ処理システムと幅広い同時処理機能を有する多様な作業不可をSQLパラダイム基盤上のアプリケーションと一体化packageすることが極めて重要となる。
ソフトとハードの一体化については、New York Stock Exchange, Fox, MySpaceその他多くできわめて重要かつ成功裏に行われてきた。
SQLとMapReduceの統合、プログラミング環境できわめてpragmatic(実利のある)解決策を用いることで、組織内でのデータ処理能力向上が実現されることになろう。
あるデータはMacReduceでの処理が容易で、別のあるものはSQLによる処理がより容易であるということになる。
この場合、ソリューション(アプリケーション、解決策)は、ユーザがこれら全ての機能にアクセス可能にすることである。
ディベロッパーが必要とするのは、ある特定のエンジン(機能、処理、システム)がデータの配布に影響されずに、ユーザーが関心のある問題について、そのパラレル処理能力を全て使うことが出来るということである。
ある組織のデータが最終的にクラウドcloud内で最終的にどのような形に保存、処理されるかについて事前にいくつか明確にする必要がある。
まず、ビッグデータbig dataが特定の誰かに必ずしも所属せず、また、巨大であるとの前提で話を始めよう。
巨大なデータを分析するlook at作業がある場合、多数のマシンを数時間借りて、その集積されたデータpoolを圧縮すれば良い。
ディスクの密度向上スピードは低下する様子がない。
パラレル処理可能なマルチコアの計算処理コストは今後もMooreの法則に従うことになる。
このプロセスの唯一の制約はこれらシステムを使ってのプログラムを容易にし、管理可能にすることである。Cloudはシステムの管理機能の点で何らかの助けにはなるであろうし、SQL やMapReduceのプログラミング環境はパラレル処理parallelismに適合している。今後、長期に亘って膨大なデータを分析することになる。そしてデータ量は増加を続けることになる。それは成長を続けるであろう、なぜなら、それ(データ処理、分析コスト)はますます低下し、データ量は益々、増大し続けるから。
詳細はこちらのポッドキャストを参照。
Read a full transcript of the discussion. The full podcast is also available for download here.
http://briefingsdirect.blogspot.com/2009/01/technical-look-at-how-parallel.htmlhttp://cdn4.libsyn.com/interarbor/BriefingsDirect_-_A_Technical_Discussion_on_MapReduce_and_New_Data_Architectures.mp3?nvb=20090116060507&nva=20090117061507&t=0d91530d0a5c95810400d(原文および抄訳対照)
Podcast: A technical look at parallel processing and BI
Dana Gardner By: Dana Gardner, Principal Analyst, Interarbor Solutions
Published: 8th January 2009
Copyright Interarbor Solutions © 2009
インターネット規模のデータ収集、膨大な数量のセンター出力、携帯機器群からのコンテンツによる巨大なデータの集まり、さらに企業内での分析用メタデータmetadataの恐るべき集積が従来のデータ処理モデルを破壊に瀕する限界にまで、追い詰めてしまった。
Internet-scale data collecting, swarms of sensors outputs, and content clouds from the mobile device fabric—as well as enterprises piling up ever more kinds of analytics metadata to analyze—have stretched traditional data management models to the breaking point.
しかし、マルチコアチップセットmulti-core chipsetsを使ったパラレル処理(並行処理parallel processing)の進展はMapReduceのようなソフトウエアによる新しいアプローチを出現させた。
Yet advances in parallel processing using multi-core chipsets have prompted new software approaches such as MapReduce that can handle these data chores at surprisingly low total cost. The technical response to oceans of data is something that has been building for some time. But the time now seems ripe to bring the technical solutions of lower-cost parallel computing advances into play with the economic imperatives of huge data crunching requirements.
ここでは、新たな又は場合によっては極限に近い各種のデータセットの要求を満たすカギは何かを考えてみたい。
And so just what are the technical underpinnings that support the new demands being placed on, and by, extreme data sets? What economies of scale can we anticipate? How will these advances spur the movement of data to Internet cloud models?
BriefingsDirect's Dana Gardnerがこれらの疑問を新たなデータ構造の専門家にパネルで投げかけて、以下のポイントについて検討してもらった。具体的にはparallelism,最新データインフラ、MapReduceの統合についてである。
BriefingsDirect's Dana Gardner put these and other questions to a panel of new data architecture experts, to plumb into how parallelism, modern data infrastructure, and MapReduce technologies come together. He spoke with Joe Hellerstein, professor of computer science at UC Berkeley; Robin Bloor, analyst at Hurwitz & Associates, and Luke Lonergan, CTO and co-founder at Greenplum.
以下はその抜粋である。
Here are some excerpts:
これまで、データ量は、長年に亘りMooreの法則に従って増加を続け、さらにそれを超えた伸びを示してきた。
Data growth has been following and exceeding Moore's Law over time. What we've been seeing is that the data sets that people are gathering and storing over time have been doubling at a rate of even faster than every 18 months. ... We're going to see all kinds of large organizations gathering data from all sorts of automated sources.
過去、数年間について、従来と異なるところはクロックスピードの18ヶ月ごとの倍増が停止したことである。代わりに、チップ内のcpu coreの数が増加しつつあるが、18ヶ月ごとに倍増ということはない。
... What's changed in the last few years is that clock speeds on processors have stopped doubling every 18 months. ... Instead, what they are doing is putting more processing cores on every chip. You can expect the number of processors on your chip to double every 18 months, but they're not going to get any faster.
従って、データの増加はより早く、チップは基本的に静止しているが、その数は増加しているということになる。
So data is growing faster, and we have chips basically standing still, but you're getting more of them. If you want to take advantage of that data, you're going to have to program in parallel to make use of all those processors on the chips. That's the confluence that's happening.
現在、きわめて多くの人々が益々多くのデータを保存、分析しつつある
There are very many people storing and analyzing more data. We're very encouraged that most of our customers are finding new uses for data that are earning them more money. Consequently, the driver to analyze more and more data continues to grow. As our customers get more successful, this use of data is becoming really important.
データのパラレル化(並行処理)は容易である。
It's easy to parallelize the data. You break it up into little chunks and you throw it out to different machines. What can we do cleverly in computing with that kind of a framework? There are a lot of ideas for how to move forward ... where you are taking this massively parallel data-flow approach.
必ずしも明らかでないのは、多くのデータが有効な分析を行うのに十分なスピードで分析されていないということである。
One thing that's kind of invisible is that there is a lot of data out there that's not being analyzed fast enough to be analyzed effectively. That's something that I think parallelism is going to address. ... The only reason not to gather that data is when you run out of affordable processing and storage. Anybody with the budget will have as much data as they can budget for and will try to monetize that. It's going to be pervasive.
これまでに解決済みの中心的な問題点は、処理エンジンにデータを再配分し、計算処理を瞬時に行うことである。
The core problem we've solved is the ability for our engine to redistribute the data and the computation on the fly, as these queries and analysis are being performed. ... The combination of the software-switch interconnect, which Greenplum built into the Greenplum product, and the underlying use of commodity parallel computers, is brought together in this database system that makes it possible to do SQL query and languages like MapReduce with automatic parallelism.
企業は過去、15年から25年間、SQLに膨大な時間を費やしてきた。従って、取引データ処理システムと幅広い同時処理機能を有する多様な作業不可をSQLパラダイム基盤上のアプリケーションと一体化packageすることが極めて重要となる。
Businesses have invested a tremendous amount of their time over the last 15 to 25 years in SQL, and some of the more traditional kinds of business analysis that pay off very well are ensconced in that programming model. So, packaging a system that can do transactional, mixed workloads with large amounts of concurrency, with applications that use the SQL paradigm, is very important.
ソフトとハードの一体化については、New York Stock Exchange, Fox, MySpaceその他多くできわめて重要かつ成功裏に行われてきた。
Packaging this together as software plus hardware, making that available as a reference architecture for customers, has been very important and has been very successful in our accounts at New York Stock Exchange, Fox, MySpace, and many others.
SQLとMapReduceの統合、プログラミング環境できわめてpragmatic(実利のある)解決策を用いることで、組織内でのデータ処理能力向上が実現されることになろう。
The combination of SQL and MapReduce in a unified way in programming environments ... is a very pragmatic [step] that can help with people's ability to get their hands on data in an organization. ... You want to have the same access to all your data via either an SQL interface or a MapReduce programming interface. ... You ought to be able to access those with whatever language suits you, mix and match.
あるデータはMacReduceでの処理が容易で、別のあるものはSQLによる処理がより容易であるということになる。
Some things are easier to do in MapReduce, and some things are easier to do in SQL, even when you know both. Good programmers have a lot of tools in their tool belt. They like to be able to use whatever tool is appropriate for the task. Having both of these things interleaved is really quite helpful.
解決策としては、ユーザがこれら全ての機能にアクセス可能であるようにすることである。
[The solution] is about users being able to gain access to all that power. What really turned the corner for general data analysis using SQL is the ability for a user to not to have to worry about what kind of table structure they have. They can have lots of small tables joining to lots of big tables, and big tables joining to each other.
ディベロッパーが必要とするのは、ある特定のエンジン(機能、処理、システム)がデータの配布に影響されずに、ユーザーが関心のある問題について、そのパラレル処理能力を全て使うことが出来るということである。
What the developer needs is an engine that doesn't care how the data is distributed, per se, just being able to use all of that parallelism on the problems of interest. ... The physical model of how the database is distributed in a shared nothing architecture in a Greenplum system is not visible to the developer.
ある組織のデータが最終的にクラウドcloud内で最終的にどのような形に保存、処理されるかについて事前にいくつか明確にする必要がある。
There are a couple of questions about how an individual organization's data will end up in the cloud. Inevitably it will, but in the short-term, people like to keep their data close, particularly database data that's traditionally been in the warehouses, very carefully managed. ... It's going to be some time until we really see everybody's data warehouses up in the cloud. ... How long will it be until you really get big volumes of data in the cloud[?] The answer is that certainly new applications will be up there. We may start to see old data getting uploaded in the cloud as well.
まず、ビッグデータbig dataが特定の誰かに必ずしも所属せず、また、巨大であるとの前提で話を始めよう。
We'll start to see big data sets up there that don't necessarily belong to anyone, and they are going to be big. In that environment, you can imagine big data analytics will have to run in the cloud, because that's where the data will be. One of the fun things about the cloud that's really exciting is the elasticity of the resources. You don't buy yourself a data center full of machines, but you rent as many machines as you need for a task.
巨大なデータを分析するlook at作業がある場合、多数のマシンを数時間借りて、その集積されたデータpoolを圧縮すれば良い。
If you have a task that's going to look at a lot of data, you would rent a lot of machines for a few hours, and then you would shrink your pool. What this is going to allow people to do is that even small organizations may, for a short period of time, look at an enormous amount of data, which perhaps doesn't originate in their own data production environment, but is something that they want to utilize for their purposes.
ディスクの密度向上スピードは低下する様子がない。
Disk densities show no signs of slowing down. So, data is going to be essentially no cost. The data-gathering infrastructure is also going to be mechanized. We're going through what I call the industrial revolution of data production. We're just going to build machines to generate data, because we think we can get value out of that data, and we can store it essentially for free.
パラレル処理可能なマルチコアの計算処理コストは今後もMooreの法則に従うことになる。
The compute cost of multi-core with parallelism is going to continue Moore's Law. It's just going to continue it in a parallel programming environment. If we can get all those cores looking at all that data, it won't cost much to do that, and the cost of that will continue to shrink by half.
このプロセスの唯一の制約はこれらシステムを使ってのプログラムを容易にし、管理可能にすることである。Cloudはシステムの管理機能の点で何らかの助けにはなるであろうし、SQL やMapReduceのプログラミング環境はパラレル処理parallelismに適合している。今後、長期に亘って膨大なデータを分析することになる。そしてデータ量は増加を続けることになる。それは成長を続けるであろう、なぜなら、それ(データ処理、分析コスト)はますます低下し、データ量は益々、増大し続けるから。
The only real barrier to the process is to make those systems easy to program and manageable. Cloud helps somewhat with manageability, and programming environments like SQL and MapReduce are well-suited to parallelism. We're going to just see an enormous use of data analysis over time. It's just going to grow, because it gets cheaper and cheaper and bigger and bigger.
詳細はこちらのポッドキャストを参照。
Read a full transcript of the discussion. The full podcast is also available for download here.
http://briefingsdirect.blogspot.com/2009/01/technical-look-at-how-parallel.html
http://cdn4.libsyn.com/interarbor/BriefingsDirect_-_A_Technical_Discussion_on_MapReduce_and_New_Data_Architectures.mp3?nvb=20090116060507&nva=20090117061507&t=0d91530d0a5c95810400d
Do you agree with what Dana Gardner is saying? Perhaps you feel, or even know, different? Why not post your opinion on this issue?