[發明專利]增強局部依賴關系無監督預訓練語音識別模型及訓練方法在審
| 申請號: | 202110642843.1 | 申請日: | 2021-06-09 |
| 公開(公告)號: | CN113380237A | 公開(公告)日: | 2021-09-10 |
| 發明(設計)人: | 朱秋實;戴禮榮 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 孫蕾 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 增強 局部 依賴 關系 監督 訓練 語音 識別 模型 方法 | ||
1.一種增強局部依賴關系的無監督預訓練語音識別模型,其特征在于,所述語音識別模型包括編碼器模塊和解碼器模塊;所述編碼器模塊包括特征提取模塊和上下文模塊,所述上下文模塊采用包括深度可分離卷積模塊的transformer編碼器,所述transformer編碼器包括自注意力模塊;其中,
所述深度可分離卷積模塊和所述自注意力模塊的位置的組合方式如下:所述自注意力模塊后接所述深度可分離卷積模塊,兩者是串行關系;所述自注意力模塊和所述深度可分離卷積模塊并行;所述自注意力模塊先和所述深度可分離卷積模塊并行,然后再和所述深度可分離卷積模塊串行;所述自注意力模塊先和所述深度可分離卷積模塊串行,然后再和所述深度可分離卷積模塊并行。
2.根據權利要求1所述的語音識別模型,其特征在于,所述特征提取模塊采用多層卷積神經網絡。
3.根據權利要求1所述的語音識別模型,其特征在于,所述特征提取模塊包含7層卷積,卷積步長為(5,2,2,2,2,2,2)卷積核為(10,3,3,3,3,3,2,2),所述特征提取模塊輸出幀長25ms,幀移20ms。
4.根據權利要求1所述的語音識別模型,其特征在于,將原始語音采樣點經過特征提取器提取淺層特征,所述淺層特征經過上下文模塊獲取上下文特征。
5.根據權利要求1所述的語音識別模型,其特征在于,所述解碼器模塊采用線性映射層或transformer decoder層。
6.根據權利要求1所述的語音識別模型,其特征在于,所述解碼器模塊的輸入為上下文特征向量,輸出為預測文本。
7.根據權利要求1所述的語音識別模型,其特征在于,所述語音識別模型還包括損失函數,所述語音識別模型在預訓練階段使用3個損失函數,在有標簽數據上微調時使用1個損失函數。
8.根據權利要求7所述的語音識別模型,其特征在于,所述語音識別模型在預訓練階段使用3個損失函數,這3個損失函數包括對比損失函數、碼本多樣性損失函數和L2損失函數。
9.根據權利要求7所述的語音識別模型,其特征在于,在有標簽數據上微調時使用1個損失函數,這個損失函數為CTC損失函數或者CE損失函數。
10.一種如權利要求1-9任一項所述的語音識別模型的訓練方法,其特征在于,包括以下步驟:
采用如權利要求1-9任一所述的語音識別模型對語音數據進行預訓練;
當語音識別模型預訓練完成后,在上下文模塊之后接入解碼器模塊,采用有標簽數據用CTC損失函數或CE損失函數微調預訓練模型;
利用無標簽數據進行無監督預訓練,在有標簽數據上進行微調。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110642843.1/1.html,轉載請聲明來源鉆瓜專利網。





