本文へジャンプ

成果報告書詳細
管理番号20190000000163
タイトル2017年度―2018年度成果報告書 次世代人工知能・ロボット中核技術開発 次世代人工知能技術分野 多様話者・多言語に対応可能なEnd―to―End音声認識AIの実用化
公開日2019/6/19
報告書年度2017 - 2018
委託先名Hmcomm株式会社
プロジェクト番号P15009
部署名ロボット・AI部
和文要約件名:2017年度―2018年度成果報告書 「次世代人工知能・ロボット中核技術開発/次世代人工知能技術分野/多様話者・多言語に対応可能なEnd-to-End音声認識AIの実用化」

本研究では、End-to-Endシステムを実用化することで、現在の音声認識システムが抱える多くの問題を解決し、社会課題の解決への道筋をつけるテクノロジーを確立することを目的とした。
また、本研究で実装したEnd-to-Endシステムを当社の音声認識システム(VContact)と連携動作させる実証実験を実施した。実用的なEnd-to-End音声認識システムを実現するために、(1)CTC-Attentionベースの手法と(2)Convolutional Neural Network(CNN)ベースの2つの手法を用いて実装・検証を実施した。CNNベースの手法ではさらに、近年のEnd to End 音声認識で比較的高い精度を達成しているVery Deep Convolutional Neural Network(VDCNN)モデルの実装・検証を併せて実施した。
近年提案されている一般的なEnd-to-Endシステムは(I)Recurrent Neural Network(RNN)およびCTC損失関数に基づく手法と、(II)Attention  based Encoder-Decoderに基づく手法に大別される。
本研究では(I)・(II)それぞれの手法のもつ欠点を補うため、両手法を組み合わせた手法(Joint CTC-attention based End-to-End)を採用した。本アルゴリズムに従い、(1)当社の既存のハイブリッドDNNモデル(2)本研究で実装したJoint CTC-attentionベースモデル(3)本研究で実装したVDCNNモデルの3つのモデルを、(a):日本語話し言葉コーパス(CSJ)から構築した学習データ、(b):(a)およびそれに白色雑音を付加した音声を使ったマルチコンディション学習したデータ、(c):(b)およびコールセンターで採取された音声特徴量をもとに構築した学習データの3つを用いて学習した音響モデルで音声認識精度を検証した。
その結果、既存のハイブリッドDNNモデル(ベースライン)と比較してJoint CTC-attentionベースモデルでは4.6%―7.1%程度の改善が見られ、VDCNNモデルでは7.8%程度の改善が見られ、VDCNNベースの音響モデルの高い対雑音性が確認された。これは多様な音響環境に対し低コストで音声認識システムを導入するにあたってEnd-to-Endシステムが有用である可能性を示していると言える。
また地方方言に対する性能検証を実施した結果として、ベールラインモデルと比較して提案手法では文字の認識ミスが低減されており、地方方言に対し提案手法の優位性が一定程度認められたと考えられる。
また、英語・ベトナム語に対し提案手法の有効性を検証した結果、英語では最大で96.3%の精度が得られ、ベトナム語では最大で65.7%の認識精度が得られ、外国語に対しても提案手法は一定の効果が確認された。
※1:https://github.com/espnet/espnet/blob/master/egs/hkust/asr1/RESULTS
英文要約Title: Practical applications for 'End-to-End Speech Recognition AI' that recognizes diversified speakers in multiple languages. (FY2017-FY2018) Final Report

In this research, we aimed to solve many problems of the present speech recognition systems and to establish the technology to lead the way to the solution of social problems by putting the End-to-End system into practical use. In addition, we conducted a demonstration experiment in which implemented in this research the End-to-End system works in conjunction with our speech recognition system (VContact). In order to realize a practical end-to-end speech recognition system, implementation and verification were carried out using (1) CTC-Attention and (2) Convolutional Neural Network (CNN) based methods. Also, under the CNN-based method, the Very Deep Convolutional Neural Network (VDCNN) model, which achieved relatively high accuracy in recent End-to-End speech recognition task, was implemented and verified. Recently proposed general end-to-end systems could be roughly classified into methods: (I) methods based on Recurrent Neural Network (RNN) and CTC loss function and (II) methods based on Attention based Encoder-Decoder. The disadvantage of (I) methods is that the conditional independence (frame level discrimination problem) needs to be assumed. The disadvantage of (II) methods is that this methods are weak to noisy data. In this research, in order to compensate for the defects of (I) and (II), we adopted an approach (Joint CTC-attention based End-to-End) that combines both methods.
According to this algorithm, three acoustic speech recognition models, (1) our existing hybrid DNN model, (2) implemented in this research Joint CTC-attention model and (3) implemented in this research VDCNN model, was trained and verified on below datasets: (a) Corpus of Spontaneous Japanese (CSJ), (b) (a) and (a) with white noise added to it, (c) (b) and speech features collected at a call center. As a result, it can be said that the end-to-end system may be useful like low cost speech recognition systems in various acoustic environments (e.g., local dialect, distant medicine, multilingual voice guidance, etc.).
In addition, as a result of carrying out performance verification for the local dialect, we think that the superiority of the proposed method is admitted. In addition, as a result of verifying the effectiveness of the proposed method for English and Vietnamese, an accuracy of up to 96.3% was obtained in English and a recognition accuracy of up to 65.7% was obtained in Vietnamese. In the previous research case (*1), the recognition accuracy around 70% was obtained for Chinese language. Considering that we think that the proposed method has certain effects even for foreign languages.
*1: https://github.com/espnet/espnet/blob/master/egs/hkust/asr1/RESULTS
ダウンロード成果報告書データベース(ユーザ登録必須)から、ダウンロードしてください。

▲トップに戻る