[發(fā)明專利]一種embedding編解碼器的語音增強(qiáng)系統(tǒng)及方法有效
| 申請(qǐng)?zhí)枺?/td> | 201911314132.0 | 申請(qǐng)日: | 2019-12-19 |
| 公開(公告)號(hào): | CN111009252B | 公開(公告)日: | 2020-08-11 |
| 發(fā)明(設(shè)計(jì))人: | 藍(lán)天;葉文政;劉嶠;吳祖峰;錢宇欣;呂憶藍(lán);李森;彭川;李萌;惠國(guó)強(qiáng) | 申請(qǐng)(專利權(quán))人: | 電子科技大學(xué) |
| 主分類號(hào): | G10L21/02 | 分類號(hào): | G10L21/02;G10L19/16 |
| 代理公司: | 成都正華專利代理事務(wù)所(普通合伙) 51229 | 代理人: | 陳選中 |
| 地址: | 611731 四川省成*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 embedding 編解碼器 語音 增強(qiáng) 系統(tǒng) 方法 | ||
1.一種embedding編解碼器的語音增強(qiáng)系統(tǒng),其特征在于,包括基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的embedding編碼器、與所述embedding編碼器連接的長(zhǎng)期記憶模塊、與所述長(zhǎng)期記憶模塊連接的注意力模塊以及基于卷積神經(jīng)網(wǎng)絡(luò)的embedding解碼器網(wǎng)絡(luò);
所述基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的embedding編碼器用于分別對(duì)純凈語音語譜圖和帶噪語音語譜圖進(jìn)行編碼,產(chǎn)生純凈語音的embedding陣列以及帶噪語音的embedding陣列;
所述長(zhǎng)期記憶模塊由純凈語音的embedding陣列產(chǎn)生,用于從帶噪語音embedding陣列中提取語音特征;
所述注意力模塊用于利用含有純凈語音特征的長(zhǎng)期記憶從帶噪語音的embedding陣列中提取語音特征,形成新的embedding陣列;
所述基于卷積神經(jīng)網(wǎng)絡(luò)的embedding解碼器網(wǎng)絡(luò)用于將新的embedding陣列還原為增強(qiáng)語音語譜圖;
所述基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的embedding編碼器包括1層全連接網(wǎng)絡(luò),以及與所述全連接網(wǎng)絡(luò)連接且位于所述全連接網(wǎng)絡(luò)后端的2層長(zhǎng)短期記憶網(wǎng)絡(luò),且所述embedding編碼器產(chǎn)生的embedding陣列尺寸為(F×T×E),其中,F(xiàn)表示頻率,T表示時(shí)間,E表示embedding向量的尺寸;
所述基于卷積神經(jīng)網(wǎng)絡(luò)的embedding解碼器網(wǎng)絡(luò)由1層卷積神經(jīng)網(wǎng)絡(luò)組成,其卷積核大小為3×3,其輸入輸出通道數(shù)分別為40和1。
2.一種embedding編解碼器的語音增強(qiáng)方法,其特征在于,包括如下步驟:
S1、分別對(duì)訓(xùn)練集中的純凈語音和帶噪語音進(jìn)行短時(shí)傅里葉變換處理,得到純凈語音以及帶噪語音的語譜圖;
S2、利用embedding編碼器分別對(duì)所述純凈語音和帶噪語音的語譜圖進(jìn)行編碼,產(chǎn)生純凈語音的embedding陣列以及帶噪語音的embedding陣列,并通過所述純凈語音的embedding陣列產(chǎn)生長(zhǎng)期記憶;
S3、將帶噪語音的embedding陣列和所述長(zhǎng)期記憶輸入至注意力模塊,并利用含有純凈語音特征的長(zhǎng)期記憶從所述帶噪語音的embedding陣列中產(chǎn)生堆疊時(shí)頻掩蔽層,并利用所述堆疊時(shí)頻掩蔽層提取語音特征,形成新的embedding陣列;
所述步驟S3包括如下步驟:
S301、將帶噪語音的embedding陣列和所述長(zhǎng)期記憶輸入至注意力模塊,并分別對(duì)所述帶噪語音的embedding陣列和含有純凈語音特征的長(zhǎng)期記憶進(jìn)行注意力計(jì)算得到時(shí)頻掩蔽;
所述步驟S301中時(shí)頻掩蔽的表達(dá)式如下:
at,f=sigmoid(M·At,f)
其中,M表示長(zhǎng)期記憶,At,f表示embedding陣列中的每個(gè)embedding向量,at,f表示時(shí)頻掩蔽層的每個(gè)時(shí)頻單元;
S302、將所述時(shí)頻掩蔽進(jìn)行復(fù)制和堆疊,產(chǎn)生堆疊時(shí)頻掩蔽層,并將堆疊時(shí)頻掩蔽層的尺寸與embedding陣列的尺寸保持一致;
所述步驟S302中堆疊時(shí)頻掩蔽層的尺寸為(F×T×E),其中,F(xiàn)表示頻率,T表示時(shí)間、E表示embedding向量的尺寸;
S303、利用所述堆疊時(shí)頻掩蔽層從embedding陣列中提取語音特征,形成新的embedding陣列;
所述步驟S303中提取語音特征A'的表達(dá)式如下:
A'=A⊙SM
其中,A表示embedding陣列,SM表示堆疊的時(shí)頻掩蔽層,⊙表示矩陣點(diǎn)乘;
S4、利用基于卷積神經(jīng)網(wǎng)絡(luò)的embedding解碼器網(wǎng)絡(luò)將所述新的embedding陣列還原為增強(qiáng)語音語譜圖,實(shí)現(xiàn)語音增強(qiáng)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學(xué),未經(jīng)電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911314132.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 外賣場(chǎng)景下店鋪embedding特征提取的方法
- 神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練方法、人群擴(kuò)散方法、裝置及設(shè)備
- 一種單聲道說話人分離模型、訓(xùn)練方法和分離方法
- 數(shù)據(jù)處理方法及裝置
- 一種社交網(wǎng)絡(luò)博主的embedding評(píng)估方法及系統(tǒng)
- 一種用戶協(xié)同過濾召回方法及裝置
- 一種基于知識(shí)圖譜規(guī)則嵌入的組合商品挖掘方法
- 一種近似物品推薦的控制方法及裝置
- 一種模型訓(xùn)練方法及裝置
- 一種緩解數(shù)據(jù)稀疏性和商品冷啟動(dòng)的商品推薦模型
- 在蜂窩電話中編解碼器使用的系統(tǒng)和方法
- 數(shù)字介質(zhì)裝置,程序,以及數(shù)字介質(zhì)提供方法
- 用于升級(jí)編解碼器的設(shè)備和方法
- 高保真音頻系統(tǒng)及其驅(qū)動(dòng)方法
- 用于發(fā)送通過編解碼器壓縮的視頻內(nèi)容的方法和設(shè)備
- 發(fā)送由編解碼器壓縮的視頻內(nèi)容的方法和設(shè)備
- 音頻編解碼組件、音頻編解碼器識(shí)別方法及系統(tǒng)
- 衛(wèi)星移動(dòng)終端語音編解碼器全雙工語音輸出功能測(cè)試方法
- 動(dòng)態(tài)編解碼器分配方法和設(shè)備
- 編解碼器生成裝置及方法
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法





