[發明專利]一種非漢語語音識別方法、系統及其構造方法有效
| 申請號: | 201710156620.8 | 申請日: | 2017-03-16 |
| 公開(公告)號: | CN108630192B | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 王東;張之勇;趙夢原;黃偉明;李國強 | 申請(專利權)人: | 清華大學;同方鼎欣科技股份有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/26 |
| 代理公司: | 北京輕創知識產權代理有限公司 11212 | 代理人: | 楊立;王丹 |
| 地址: | 100085*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 漢語 語音 識別 方法 系統 及其 構造 | ||
本發明涉及一種非漢語語音識別方法、系統及其構造方法,非漢語語音識別的構造方法包括:利用漢語特征提取模型從漢語語料庫的漢語語音數據中提取語音特征;根據提取的語音特征建立漢語聲學模型;對漢語聲學模型進行處理,得到的非漢語聲學模型;對漢語特征提取模型進行處理,得到非漢語特征提取模型;根據非漢語特征提取模型和非漢語聲學模型構建非漢語語音識別系統。本發明利用既有的漢語語音資源及其訓練出的模型,以及少量必須的語言數據資源就可以快捷地構造出有效的非漢語語音識別系統,有效的降低了成本和時間開銷。
技術領域
本發明涉及語音識別技術領域,尤其涉及一種非漢語語音識別方法、系統及其構造方法。
背景技術
語音識別是將聲音轉換成文本的技術。語音識別需要大量預先進行精確標注過的語音數據資源進行模型訓練,否則很難達到較高識別率的實用化的效果。語音數據的采集以及正確標注需要大量人力物力和時間成本,很難在短期積累大量數據。對漢語語音識別而言,可以通過向專業的數據公司購買或線上數據外包標注的方法,從而高效地實現資源數據的積累;然而,當構造不同與漢語的一種語言的語音識別系統時,必須重新積累該語言的數據,帶來巨大的成本和時間開銷。
發明內容
本發明所要解決的技術問題是針對現有技術的不足,提供一種非漢語語音識別方法、系統及其構造方法。
本發明解決上述技術問題的技術方案如下:一種非漢語語音識別系統的構造方法,包括以下步驟:
步驟1、利用漢語特征提取模型從漢語語料庫的漢語語音數據中提取語音特征;
步驟2、根據提取的所述語音特征建立漢語聲學模型;
步驟3、對所述漢語聲學模型進行處理,得到的非漢語聲學模型;
步驟4、對所述漢語特征提取模型進行處理,得到非漢語特征提取模型;
步驟5、根據所述非漢語特征提取模型和所述非漢語聲學模型構建非漢語語音識別系統。
本發明的有益效果是:通過對漢語聲學模型和漢語特征提取模型處理,得到非漢語特征提取模型和非漢語聲學模型,并根據該非漢語特征提取模型和該非漢語聲學模型構建非漢語語音識別系統,從而利用既有的漢語語音資源及其訓練出的模型,以及少量必須的語言數據資源就可以快捷地構造出有效的非漢語語音識別系統,有效的降低了成本和時間開銷。
在上述技術方案的基礎上,本發明還可以做如下改進。
進一步地,在步驟5之前,還包括:步驟6、利用跨語言因子增強所述非漢語聲學模型,其中,所述跨語言因子為語言無關因子,包括:環境因子、信道因子和說話人因子。
進一步地,所述漢語特征提取模型和所述非漢語特征提取模型分別由深度神經網絡DNN或卷積神經網絡CNN構成,所述漢語聲學模型和所述非漢語聲學模型分別由循環神經網絡RNN構成。
進一步地,步驟3包括:
步驟3.1、采用i-vector算法對所述漢語聲學模型進行處理,得到非漢語聲學模型;或者,
步驟3.2、采用基于CNN或RNN的自動編碼器對所述漢語聲學模型進行處理,得到非漢語聲學模型。
進一步地,步驟4包括:
步驟4.1、直接復制所述漢語特征提取模型,并將其作為所述非漢語特征提取模型;或者,
步驟4.2、根據目標函數約束法對所述漢語特征提取模型進行處理,得到的非漢語特征提取模型。
進一步地,所述目標函數為:
L(x;w)=H(x;w)+∑x||hc(x)-hj(x)||2
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學;同方鼎欣科技股份有限公司,未經清華大學;同方鼎欣科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710156620.8/2.html,轉載請聲明來源鉆瓜專利網。





