[發(fā)明專利]增強(qiáng)局部依賴關(guān)系無監(jiān)督預(yù)訓(xùn)練語音識別模型及訓(xùn)練方法在審
| 申請?zhí)枺?/td> | 202110642843.1 | 申請日: | 2021-06-09 |
| 公開(公告)號: | CN113380237A | 公開(公告)日: | 2021-09-10 |
| 發(fā)明(設(shè)計(jì))人: | 朱秋實(shí);戴禮榮 | 申請(專利權(quán))人: | 中國科學(xué)技術(shù)大學(xué) |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 孫蕾 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 增強(qiáng) 局部 依賴 關(guān)系 監(jiān)督 訓(xùn)練 語音 識別 模型 方法 | ||
本發(fā)明提供了一種增強(qiáng)局部依賴關(guān)系的無監(jiān)督預(yù)訓(xùn)練語音識別模型,所述語音識別模型包括編碼器模塊和解碼器模塊;所述編碼器模塊包括特征提取模塊和上下文模塊,所述上下文模塊采用包括深度可分離卷積模塊的transformer編碼器,所述transformer編碼器包括自注意力模塊;其中,所述深度可分離卷積模塊和所述自注意力模塊的位置的組合方式如下:所述自注意力模塊后接所述深度可分離卷積模塊,兩者是串行關(guān)系;所述自注意力模塊和所述深度可分離卷積模塊并行;所述自注意力模塊先和所述深度可分離卷積模塊并行,然后再和所述深度可分離卷積模塊串行;所述自注意力模塊先和所述深度可分離卷積模塊串行,然后再和所述深度可分離卷積模塊并行。
技術(shù)領(lǐng)域
本發(fā)明涉及低資源語音識別領(lǐng)域,尤其涉及一種增強(qiáng)局部依賴關(guān)系的無監(jiān)督預(yù)訓(xùn)練語音識別模型及訓(xùn)練方法。
背景技術(shù)
語音識別也稱為自動語音識別(Automatic Speech Recognition,ASR)。其目標(biāo)是將人類語音轉(zhuǎn)換為計(jì)算機(jī)可讀的文字或指令。低資源語音識別是語音識別的一個領(lǐng)域,目前利用無監(jiān)督語音預(yù)訓(xùn)練方法來提升低資源語音識別性能是其中一種主流的方法。
無監(jiān)督預(yù)訓(xùn)練方法采用大量無標(biāo)簽語音數(shù)據(jù)進(jìn)行訓(xùn)練,能夠充分利用極易獲取的無標(biāo)簽語音數(shù)據(jù),學(xué)習(xí)語音中的結(jié)構(gòu)信息。一個具有代表性的語音無監(jiān)督預(yù)訓(xùn)練模型是wav2vec 2.0模型。Wav2vec 2.0掩蔽語音幀信息,通過上下文預(yù)測被掩蔽的語音幀信息,然后構(gòu)建對比損失函數(shù)來區(qū)分正負(fù)樣本,學(xué)習(xí)語音中的結(jié)構(gòu)信息。wav2vec 2.0模型是基于transformer模型結(jié)構(gòu),而transformer模型結(jié)構(gòu)能夠有效對長距離的上下文依賴關(guān)系進(jìn)行建模,但是缺乏對細(xì)粒度局部信息的建模。由于聲音事件經(jīng)常發(fā)生在短時間范圍內(nèi),所以長距離的上下文依賴關(guān)系和局部細(xì)粒度依賴關(guān)系都是有必要的。有研究者提出了端到端conformer模型,此模型結(jié)合深度可分離卷積模塊和自注意力模塊來同時建模語音中的長距離的上下文依賴關(guān)系和局部細(xì)粒度依賴關(guān)系,該模型減少了語音識別錯誤率。但是該conformer模型是用在端到端語音識別模型中。又有研究者提出了lite transformer模型,該模型包含兩個分支,一個分支是卷積模塊,另一個分支是自注意力模塊,然后對兩個分支的輸出進(jìn)行拼接。卷積模塊能夠捕獲局部的依賴關(guān)系,而自注意力模塊專注于捕獲上下文依賴關(guān)系,它們各司其職,然后在機(jī)器翻譯任務(wù)上取得了性能提升。這些類似的思想在不同領(lǐng)域均帶來了性能的提升,但是在語音領(lǐng)域,如何在預(yù)訓(xùn)練模型中對局部和全局依賴性關(guān)系進(jìn)行建模仍然是一個開放性的問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種增強(qiáng)局部依賴關(guān)系的無監(jiān)督預(yù)訓(xùn)練語音識別模型,以期部分地解決上述技術(shù)問題中的至少之一。
為了實(shí)現(xiàn)上述目的,作為本發(fā)明的一方面,提供了一種增強(qiáng)局部依賴關(guān)系的無監(jiān)督預(yù)訓(xùn)練語音識別模型,所述語音識別模型包括編碼器模塊和解碼器模塊;所述編碼器模塊包括特征提取模塊和上下文模塊,所述上下文模塊采用包括深度可分離卷積模塊的transformer編碼器,所述transformer編碼器包括自注意力模塊;其中,
所述深度可分離卷積模塊和所述自注意力模塊的位置的組合方式如下:所述自注意力模塊后接所述深度可分離卷積模塊,兩者是串行關(guān)系;所述自注意力模塊和所述深度可分離卷積模塊并行;所述自注意力模塊先和所述深度可分離卷積模塊并行,然后再和所述深度可分離卷積模塊串行;所述自注意力模塊先和所述深度可分離卷積模塊串行,然后再和所述深度可分離卷積模塊并行。
其中,所述特征提取模塊采用多層卷積神經(jīng)網(wǎng)絡(luò)。
其中,所述特征提取模塊包含7層卷積,卷積步長為(5,2,2,2,2,2,2)卷積核為(10,3,3,3,3,3,2,2),所述特征提取模塊輸出幀長25ms,幀移20ms。
其中,將原始語音采樣點(diǎn)經(jīng)過特征提取器提取淺層特征,所述淺層特征經(jīng)過上下文模塊獲取上下文特征。
其中,所述解碼器模塊采用線性映射層或transformer decoder層。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)技術(shù)大學(xué),未經(jīng)中國科學(xué)技術(shù)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110642843.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法





