本文へジャンプ

成果報告書詳細
管理番号20180000000580
タイトル平成28年度ー平成29年度成果報告書 次世代人工知能・ロボット中核技術開発 (次世代人工知能技術分野)大規模目的基礎研究・先端技術研究開発 超低消費電力深層学習プロセッサおよびソフトウェア層の研究開発
公開日2018/9/20
報告書年度2016 - 2017
委託先名国立研究開発法人理化学研究所 株式会社Preferred Networks
プロジェクト番号P15009
部署名ロボット・AI部
和文要約件名:平成28年度ー平成29年度成果報告書 平成次世代人工知能・ロボット中核技術開発/(次世代人工知能技術分野)大規模目的基礎研究・先端技術研究開発/超低消費電力深層学習プロセッサおよびソフトウェア層の研究開発

本先導研究では、人工知能、特に深層学習をターゲットとして、
1) 2020年時点で確実に利用可能と思われる10nmないし7nmの半導体製造プロセスを使った場合に、3-10Tops/Wの電力あたり性能。
2) 最大 100Tops 程度までのシステムを低消費電力で実現できるスケーラブルなプロセッサアーキテクチャ。
3) 推論だけでなく学習にも対応できる柔軟性。
を持つプロセッサの論理設計および利用可能なプロセスでの物理設計、小規模なシステムのFPGAによる実装と実用アプリケーションによる性能評価を行うことを当初の目標とした。

当初計画では、物理設計での消費電力シミュレーションと FPGA による実装での性能評価を行う予定であったが、予算の範囲内で 40nm プロセスのシャトルサービスにより小規模なLSI試作を行い、実チップでの電力性能を評価できることが判明したため、プロセッサアーキテクチャの検討と、FPGA ではなく実チップでの電力評価に主体を置くことにした。

プロセッサアーキテクチャについては、要素プロセッサ(PE)は SIMD 動作をし、単体ではサイクルあたり倍精度2演算(乗算+加減算)、単精度、半精度ではそれぞれ4、8演算をするが、4PEを1「行列プロセッサ」として使う時にには倍、単、半精度で4x4, 8x8, 16x16 の行列とベクトルの乗算を行うことが可能なアーキテクチャを採用した。ここで倍精度、単精度、半精度は通常の64, 32, 16 ビットではなく、独自形式の 72, 32, 18 ビットを採用した。これは、特に半精度演算で指数、仮数に余裕をもたせるためである。

これにより、プロセッサの論理回路に対する演算器の割合を非常に高くし、高い電力性能を実現した。実用になるチップでは、この PE を数千個集積する。そのために、チップの内部には2階層のネットワークをもたせ、DNN、特に CNN の高速な処理に適したアーキテクチャとした。

まず (1) については、40nm で設計したチップの電力性能を実測した。1.1V動作で301Gops/W、 0.8V で 501Gops/W となり、低電圧対応ロジックで 0.55V程度での動作が可能になれば 1.05Tops/W の電力性能が実現できる見込みとなった。

(2) については、この要素プロセッサを 2048 個集積し、 500MHz のクロックで動作させると、半精度での演算性能は 131 Tops に達する。広く使われている現実的な DNN に対して、このチップを複数個密結合させた構成でも、推論・学習の双方で十分な実行効率が実現できることを机上の検討ではあるが検証した。すなわち、500Tops を超えるシステムが実現できることを示した。

(3) については、学習で広く使われている単精度演算に対応することで、実現できていると判断した。単精度では演算速度は 1/4 に低下する。このため、今回の試作チップでは採用していないが、乗算は半精度、加減算は単精度で行うことで学習も可能にすることを検討した。
英文要約Title: Future AI and Robot Technology Development Project / (Next Generation Artificial Intelligence Technology Area) Basic research for Large-scale application and advanced research and development / Ultra-low-power Deep Learning processor and software layer (FY2016-FY2017) Final Report

The original goal of this project is to develop the processor architecture and logic design which satisfies the following criteria:

1) When fabricated with 10nm or 7nm semiconductor technology, achieves the performance per watt of 3-10 TF/W.
2) Scalable up to 100TF
3) Flexibility to be applied both inference and learning.

In addition, in the original plan we plan to validate the logic design using small-scale FPGA implementation.

However, it turned out that it is possible to measure the power consumption using real test chip using 40nm shuttle. So we changed the original plan and decided to make test chip and measure the power consumption.

The processor architecture can be summarized as follows. Processing elements (PEs) operate in SIMD fashion. Each PE performs 1, 2, or 4 floating-point multiply-and-add operations for double-, single- and half- precision per clock cycle. Four PEs combined can operate as single "Matrix processor", which can perform matrix-vector multiplication for 4x4, 8x8, and 16x16 matrices for double-, single-and half- precision per clock cycle.

With this architecture, we have succeeded to make the fraction of transistors used for floating-point arithmetic circuits very high, and thus achieved very high performance per watt. In the production chip, several thousand PEs will be integrated in a single chip. To make efficient use of this large number of PEs, we added the two-level hierarchical on-chip network which support broadcasts and reduction.

Concerning the performance per watt, the measured performance per watt is 0.301TF/W at nominal 1.1V power supply, and 0.503TF/W at 0.8V. Thus, if low-voltage logic with 0.55V power supply is used, 1.05TF/W can be achieved.

Concerning the scalability, when 2048 PEs are integrated and used at 500MHz clock, the single-chip performance reaches 131Tflops. We have confirmed that reasonable efficiency is achieved for several networks including ResNet.

Concerning the flexibility, we support both single- and half-precision, and half-precision matrix-vector multiplication result is in single-precision format. We have confirmed that this accuracy is sufficient for learning step.
ダウンロード成果報告書データベース(ユーザ登録必須)から、ダウンロードしてください。

▲トップに戻る