成果報告書詳細
管理番号20100000001815
タイトル平成21年度成果報告書 メニーコア・プロセッサ技術の研究開発(グリーンITプロジェクト) メニーコア・プロセッサ基幹技術の先導研究 アクセラレータ併用型低消費電力メニーコア技術の先導研究
公開日2011/1/18
報告書年度2009 - 2009
委託先名富士通株式会社
プロジェクト番号P09005
部署名電子・情報技術開発部
和文要約 要件の把握
高速レスポンスのスループット処理と、高速実行の並列処理の2つの処理形態に対して有効に適用できるメニーコア・プロセッサが求められている。前者は、メール・ウェブなどの多数処理であり、後者は民生機器・産業機器の技術開発用ソフトウェアや、医療機器で収集した患者医療データのリアルタイム画像処理ソフトウェアの高速処理の要件が顕著である事が把握できた。
後者の処理においては、機器の設計ケース数の増大、設計期間の短縮の要件から、また、急増する患者医療データ量の対応や生成画像の高精細化・高精度化の要件から、現状の数10倍から100倍の性能向上が強く求められている。さらに空調・給電の負担も増大しており、その軽減も強く求められているのが現状である事が把握できた。冷蔵庫の大きさが卓上設置型になるような小型化・低消費電力化・静粛化が求められている。
方式とコンパイラの協調
低消費電力化と高性能化の両立には、演算を加速するアクセラレータを汎用CPUに併用するのが最適である事、アクセラレータ併用CPUコアを64個搭載する実現性を得たこと、LSIチップに大容量エンベデッドDRAMを搭載し各コアの演算に必要なメモリデータの高速・大量供給のためローカルデータメモリをコア近傍に配置する実現性を得たこと、および並列化の最適化度合いをコンパイラが積極的に高度化できるよう各コアに対応・配置しているメモリ空間は一元メモリ空間を構成するメモリ方式の見通しを得たことが、方式研究の成果である。
早稲田大学の並列化コンパイラは、並列化および低消費電力化の機能を担当し、一方富士通バックエンドコンパイラはアクセラレータへの並列化を担当するという機能をシームレスに連結する言語処理システム構築の実現性が得られた。評価プログラムを用いた性能評価の結果、1CPUの性能に比べ580倍の性能向上が確認できた。
チップとシステムの構成
64個のコアは、16コアを完全クロスバーで相互結合するクラスターを4個で構成する結合網の実現性が得られた。28ナノメートルCMOS半導体を採用すると、チップ面積=22mm角、最高動作周波数=800Mhzの実現の見通しを得た。約30GFlops/Wの電力効率が得られる見通しを得た。
システムボードの実測の結果、システム消費電力の内、CPUチップは60%、電源・ファンは20%を占めることが明らかになった。本メニーコア・プロセッサを適用するとシステム全体の電力を1/3に低減する可能性があり、メモリや電源・冷却の低消費電力化が課題である事が顕在化した。
英文要約Title : Advanced Research for Many-Core Processor Technology (Green-IT Project) / Advanced Research for Many-Core Processor Fundamental Technology / Advanced Research for Accelerator-Cooperative Low-Power Many-Core Processor
Summary
Requirement Study
Hybrid computing of two types of computer processings are in need: throughput processing that enables a plethora of jobs such as e-mail and web servers to be handled in a short response, and parallel processing that enables a single job to be decomposed and executed in parallel for faster execution. It has become clear that the demand of speeding up the execution time of engineering programs for consumer and industrial products and real-time graphic rendering from patient’s medical data are on the rise. Several 10’s to a 100 times of acceleration of the processing time in pursuit of shorter time-to-market of the products, and much finer resolution of graphic image.
Highlighted is ever increasing burden of cooling and electric power expenses. Significant cut-down on power consumption and physical size are subject to resolution.
“Mariage” of architecture and compiler
It has been demonstrated that the general purpose CPU hooked with an accelerator, which could allow computationally intensive programs to execute power-efficiently, is an optimal core configuration for realizing both higher performance and lower power consumption of many-core processor system, the number of cores amounts to 64 cores on an LSI chip, the local data memory composed, on the chip, of large-capacity embedded-DRAMs for high-throughput and low-access time to commensurate core computation speed is placed in the neighborhood of each of the 64 cores, and each local memory space composes a single global memory space shared with all processors in the system in order for the compiler to go for optimizing aggressively .
The seamless language system is proven possible in a way that the parallel compiler of Waseda University takes responsibility for paralleling and low-power consumption execution control among a whole program, while in synchronization with it, the Fujitsu’s compiler for generating and optimizing the accelerator code of each core. The performance simulation when running evaluation programs reveals that the 64-core many-core processor delivers 580 times the performance of a single CPU without the accelerator.
Configuration of chip and system
It has made clear that 4 clusters, one of which consists of 16 cores interconnected by crossbar network, are one of the best configuration, and that the size of the LSI chip is 22mm square, maximum operation frequency is 800Mhz with expected 28nm CMOS technology resulting in about 30 Gflops per Watt efficiency. Electric power consumption measurement has shown that 60% of the system board of current server account for CPU chip, and 20% for power units and cooling fans. Expectations are total system power consumption, if many-core processor chip is incorporated, could be reduced to one third of the current level. Further study for lowering power consumption of memory, power unit and cooling fan are found to be a challenge.
ダウンロード成果報告書データベース(ユーザ登録必須)から、ダウンロードしてください。

▲トップに戻る