[發明專利]一種基于對比學習的端到端音障語音識別方法在審
| 申請號: | 202110588547.8 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113450777A | 公開(公告)日: | 2021-09-28 |
| 發明(設計)人: | 孫仕亮;吳麗丹;趙靜;張楠 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/02;G10L15/16;G10L15/20;G10L15/22 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 對比 學習 端到端 音障 語音 識別 方法 | ||
1.一種基于對比學習的端到端音障語音識別方法,其特征在于,該方法包括如下步驟:
步驟一:基于大規模正常發音的語音數據集預訓練出基本的語音識別模型
所述語音識別模型為Transformer模型中的端對端神經網絡,包括編碼器和解碼器兩部分,預訓練后可得到網絡的初始參數;
步驟二:對開源的音障語音數據進行信號處理得到頻譜圖,在頻譜圖上進行數據增強操作,生成多視圖數據;
步驟三:多視圖數據通過共享參數的Transformer模型中的編碼器作為非線性神經網絡提取隱層信息;
步驟四:隱層信息經過投影模塊對隱層信息進一步提取得到低維空間中的隱表示;
步驟五:計算不同視圖數據的隱表示之間的對比損失,并將其作為模型訓練時的優化目標;
步驟六:在解碼過程中直接使用隱層信息解碼進行音障語音識別。
2.如權利要求1所述的基于對比學習的端到端音障語音識別方法,其特征在于,步驟二所述的數據增強操作是指:對于音頻經過信號處理得到的頻譜圖,進行時域扭曲、頻域掩蔽或時域掩蔽變換;詳細步驟包括:
步驟a1:對不同頻域的信號進行預加重操作,補充高頻部分的能量,使得信號在不同頻段的能量均勻,進而在求頻譜圖時使用相同的信噪比;
步驟a2:對語音信號進行分幀、加窗操作,將原來由于波形特性變化而沒有規律的非平穩信號轉化為多個幀,在分幀后的每個小片段被認為是平穩信號;
步驟a3:對每個小片段進行快速傅立葉變換,將時域信號轉到頻域,獲得線性譜;傅里葉變換以及傅立葉逆變換符合下列式子:
其中,t、w分別是時間和頻率,f(t)、F(w)分別是信號的時域和頻域的表示;F(w)是f(t)的象函數,F(w)到f(t)的過程實際上是將頻率域的函數表示為時間域函數的積分;f(t)是F(w)的象原函數,其過程正好相反;象函數和象原函數構成一個傅立葉變換對,當T→∞時,Ω=2π/T→dw,nΩ→w;
步驟a4:通過一組模擬人耳聽覺特性的梅爾濾波器,將線性譜轉化為梅爾頻譜圖,獲得準確的頻譜特征;
步驟a5:在梅爾頻譜圖上進行數據增強操作,包括時域扭曲、頻域掩蔽或時域掩蔽變換;原始數據x經由變換得到了兩個視圖下的數據xi與xj,符合下列式子:
xi=a(x),xj=a′(x), (2)
其中a與a′為變換族中的兩種變換,即且
3.如權利要求1所述的基于對比學習的端到端音障語音識別方法,其特征在于,步驟三所述的Transformer模型中的編碼器f運用了Attention機制,提取出兩個視圖間共有的信息;經過編碼器得到隱層信息hi=f(xi)以及hj=f(xj)。
4.如權利要求1所述的基于對比學習的端到端音障語音識別方法,其特征在于,步驟四所述的投影模塊是一種保留隱層表示的信息、加速損失函數的計算而增設的非線性網絡g,采用注意力時序金字塔網絡實現投影模塊的功能,將隱層信息映射到隱表示,zl=g(hl),詳細步驟包括:
步驟b1:將長度為T的D維向量劃分為N個子集,其中每個子集內含有n個分塊,n=1,2,4,其中每個分塊是長度為T/n的特征向量;
步驟b2:將子集輸入到N×M的注意力權重矩陣當中,獲得每個分塊的權重,其中M表示分塊的個數;
步驟b3:特征向量經過注意力權重矩陣的加權操作在隱空間得到最低維的隱表示zi。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110588547.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種組織塊清洗裝置及其清洗方法
- 下一篇:一種聲衰減建筑材料及其加工工藝





