本文へジャンプ

成果報告書詳細
管理番号20170000000054
タイトル平成27年度ー平成28年度成果報告書 次世代ロボット中核技術開発/(次世代人工知能技術分野)マルチモーダルコミュニケーション/多様な時系列情報に対する深層学習基盤の開発
公開日2017/5/9
報告書年度2015 - 2016
委託先名株式会社Preferred Networks
プロジェクト番号P15009
部署名ロボット・AI部
和文要約件名:平成27年度ー平成28年度 調査研究 成果報告書 次世代ロボット中核技術開発/(次世代人工知能技術分野)マルチモーダルコミュニケーション/多様な時系列情報に対する深層学習基盤の開発

本調査研究では、機械と人間との自然言語を中心としたコミュニケーションを実現するための要素技術の調査を行い、産業への応用を視野に入れた実現可能性を検討した。具体的には、言語情報に代表されるような系列データを効率的に扱い、さらには音声、音響、映像のような多様な系列データをマルチモーダルに学習し、応用が可能な深層学習基盤を実現するための要素技術の抽出を行った。また、コミュニケーションの実現に向けて必要なフェーズを「知覚」「蓄積」「学習」「反映」の4つと定義し、各フェーズで調査・研究を行い、その結果を踏まえて要素技術検証とプロトタイプ開発を行った。知覚の調査・研究の成果を次に記す。コミュニケーション技術を開発するために、マルチモーダルインターフェースを備えたデバイスの検討・試作を行った。拡張可能な複数の入力インターフェース、ネットワークインターフェース、1TFLOPSの演算処理能力を有し、カメラ、マイク、その他センサー等から得られる映像、音声などの入力データから、端末側で高度な学習を実現する演算処理能力を持つデバイスを試作した。蓄積の調査・研究の成果を次に記す。エッジヘビーコンピューティングと呼ばれるアーキテクチャをベースに検討を行い、データを全てサーバ側に送信するのではなく、端末側で情報処理を行うことが可能なスペックを有するものを試作した。取得できるデータを効率的に蓄積、管理するための技術調査と試作を行った。学習の調査・研究の成果を次に記す。マルチモーダル学習に関係する既存技術の調査を行った。特に深層学習手法を応用して、複数の情報源を結びつけることに関連のある手法に関して調査した。情報源として、映像情報、音響情報、言語情報に関して、またそれぞれを複数結びつける技術の調査を行った。反映の調査・研究の成果を次に記す。学習結果を分散して共有し、反映させる手法として、深層学習向けの分散学習基盤の調査を行った。現状では、パラメータサーバー型の分散学習が主流となっており、分散機構と個別の学習機構を分離することが可能であり、サーバー側とエッジ側とで役割を明確に定義することで、現実的なエッジヘビーコンピューティングの実現に向けた検討を行った。本調査研究の成果の一つとして、汎用的な深層学習基盤を設計、試作を行った。要素技術の抽出から、多様な系列データをマルチモーダルに学習し、汎用的な分野への応用が可能な深層学習基盤を実現するための設計を達成し、特許申請を行った。試作と調査をすすめる上で、個別の技術課題以上に、データ作成の方法論の重要性に気づいた。多数の異なる情報を受け取り、同時に多数の異なるアクチュエータに対して作用する場合、これらを全て備えたデータの作り方は自明ではない。昨今の機械学習技術の発展の裏にはImageNetを始めとした、タスクに特化した大規模なデータセットがあり、かつこれらはクラウドソーシングなどの社会基盤があり、データ作成の方法論自体も変化してきていることは注目すべきであろう。今回ロボットの遠隔操作というかたちでのデータ作成の方法を検討したが、特に操作デバイスに関しては十分に検討できていない。より効率的で実デバイスに近いデータを大規模に作る方法に関して、今後も検討する必要がある。
英文要約Title: Strategic Advancement of Multi-Purpose Ultra-Human Robot and Artificial Intelligence Technologies / Multimodal Communication / The development of the Deep Learning framework for a variety of time-series multi-modal information (FY2015 - FY2016) Final Report

In this study, we investigated elemental technologies to realize communication mainly on natural languages between machine and human beings, and examined feasibility feasibly applied to industries. Specifically, it deals efficiently with series data as typified by language information, learns various series data such as voice, sound, video. At first, we define the necessary phases for realizing communication as "perception", "accumulation", "learning", "reflection", investigate and research at each phase, and based on the results, verify element technologies and prototype development . In order to develop communication technology, we have studied and fabricated a device with a multimodal interface. We prototyped a device realizes advanced learning on the device side from input data such as video and sound obtained from a camera, a microphone, other sensors, etc., which has a computation processing capacity of 1 TFLOPS, expandable input interfaces, and network interfaces. As research on accumulation, we studied on the basis of an architecture called edge heavy computing, and prototyped a prototype that can process information on the terminal side rather than sending all the data to the server side. As research on learning, we conducted a survey of existing technologies related to multimodal learning. In particular, applying the deep learning method, we investigated methods related to linking multiple sources. We investigated video information, acoustic information, language information as information sources, and technology to connect each of them. As reseach on reflection, we investigated distributed learning infrastructure for deep learning as a method to distribute, share and reflect learning results. From these extractions of element technologies, we also applied a patent on learning multimodal various series data, realizing a design to realize a deep learning infrastructure that can be applied to general purpose fields. In this trial and investigation, We noticed the importance of the methodology of data creation over individual technical issues. Behind the development of recent machine learning techniques is a large-scale data set specialized for tasks such as ImageNet, and these have social infrastructures such as crowdsourcing, the methodology of data creation itself must be noteworthy. We examined the method of data creation in the form of remote control of the robot this time. It is necessary to consider further on the method of making data that is more efficient and close to real devices on a large scale.
ダウンロード成果報告書データベース(ユーザ登録必須)から、ダウンロードしてください。

▲トップに戻る