[發(fā)明專(zhuān)利]語(yǔ)音增強(qiáng)模型的訓(xùn)練方法和裝置及語(yǔ)音增強(qiáng)方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202110096168.7 | 申請(qǐng)日: | 2021-01-25 |
| 公開(kāi)(公告)號(hào): | CN112927707B | 公開(kāi)(公告)日: | 2023-10-03 |
| 發(fā)明(設(shè)計(jì))人: | 張新;張旭;鄭羲光;張晨;郭亮 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京達(dá)佳互聯(lián)信息技術(shù)有限公司 |
| 主分類(lèi)號(hào): | G10L21/0208 | 分類(lèi)號(hào): | G10L21/0208;G10L21/0224;G10L21/0232;G10L21/0272;G10L25/24;G10L25/30 |
| 代理公司: | 北京銘碩知識(shí)產(chǎn)權(quán)代理有限公司 11286 | 代理人: | 蘇銀虹;曾世驍 |
| 地址: | 100085 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語(yǔ)音 增強(qiáng) 模型 訓(xùn)練 方法 裝置 | ||
本公開(kāi)關(guān)于一種語(yǔ)音增強(qiáng)模型的訓(xùn)練方法和裝置及語(yǔ)音增強(qiáng)方法和裝置,所述訓(xùn)練方法包括:獲取多個(gè)說(shuō)話(huà)人的含噪語(yǔ)音樣本和第一純凈語(yǔ)音樣本的特征向量,其中,每個(gè)說(shuō)話(huà)人的含噪語(yǔ)音樣本是根據(jù)與該說(shuō)話(huà)人對(duì)應(yīng)的第二純凈語(yǔ)音樣本添加噪聲數(shù)據(jù)得到的;將含噪語(yǔ)音樣本的幅度譜輸入語(yǔ)音增強(qiáng)網(wǎng)絡(luò),得到估計(jì)的第一掩膜比;將估計(jì)的第一掩膜比和特征向量輸入到注意力機(jī)制網(wǎng)絡(luò),得到估計(jì)的第二掩膜比;根據(jù)估計(jì)的第二掩膜比和幅度譜,確定估計(jì)的幅度譜,并根據(jù)估計(jì)的幅度譜和第二純凈語(yǔ)音樣本的幅度譜確定語(yǔ)音增強(qiáng)模型的損失函數(shù);通過(guò)根據(jù)損失函數(shù)調(diào)整語(yǔ)音增強(qiáng)網(wǎng)絡(luò)和注意力機(jī)制網(wǎng)絡(luò)的參數(shù),對(duì)語(yǔ)音增強(qiáng)模型進(jìn)行訓(xùn)練。
技術(shù)領(lǐng)域
本公開(kāi)涉及音頻技術(shù)領(lǐng)域,更具體地說(shuō),涉及一種語(yǔ)音增強(qiáng)模型的訓(xùn)練方法和裝置及語(yǔ)音增強(qiáng)方法和裝置。
背景技術(shù)
嘈雜的環(huán)境會(huì)影響人們?cè)谡Z(yǔ)音溝通中的效果,在當(dāng)前的主流通訊軟件中,通常采用不同語(yǔ)音增強(qiáng)算法實(shí)現(xiàn)對(duì)通話(huà)過(guò)程中含噪音頻進(jìn)行處理,傳統(tǒng)方法可以實(shí)現(xiàn)對(duì)穩(wěn)態(tài)噪聲的處理,優(yōu)點(diǎn)是運(yùn)算復(fù)雜度低,深度學(xué)習(xí)方法通常用來(lái)去除瞬態(tài)噪聲,效果較傳統(tǒng)方法要好,但是運(yùn)算復(fù)雜度高。
含噪語(yǔ)音中通常會(huì)含有背景噪聲或其他說(shuō)話(huà)人的聲音,為了提高溝通效率,需要獲取特定說(shuō)話(huà)人的純凈語(yǔ)音,常規(guī)的語(yǔ)音增強(qiáng)可以做到去除背景噪聲,分理出各個(gè)說(shuō)話(huà)人的聲音,但是仍然面臨著說(shuō)話(huà)人的排序問(wèn)題,不知道應(yīng)該輸出哪個(gè)說(shuō)話(huà)人的聲音,因此針對(duì)特定說(shuō)話(huà)人的語(yǔ)音增強(qiáng)的效果一般。
發(fā)明內(nèi)容
本公開(kāi)提供一種語(yǔ)音增強(qiáng)模型的訓(xùn)練方法和裝置及語(yǔ)音增強(qiáng)方法和裝置,以至少解決上述相關(guān)技術(shù)中的問(wèn)題,也可不解決任何上述問(wèn)題。
根據(jù)本公開(kāi)實(shí)施例的第一方面,提供一種語(yǔ)音增強(qiáng)模型的訓(xùn)練方法,所述語(yǔ)音增強(qiáng)模型包括語(yǔ)音增強(qiáng)網(wǎng)絡(luò)和注意力機(jī)制網(wǎng)絡(luò),所述訓(xùn)練方法包括:獲取多個(gè)說(shuō)話(huà)人的含噪語(yǔ)音樣本和所述多個(gè)說(shuō)話(huà)人的第一純凈語(yǔ)音樣本的特征向量,其中,每個(gè)說(shuō)話(huà)人的含噪語(yǔ)音樣本是根據(jù)與該說(shuō)話(huà)人對(duì)應(yīng)的第二純凈語(yǔ)音樣本添加噪聲數(shù)據(jù)得到的;將所述含噪語(yǔ)音樣本的幅度譜輸入所述語(yǔ)音增強(qiáng)網(wǎng)絡(luò),得到估計(jì)的第一掩膜比,其中,掩膜比表示純凈語(yǔ)音信號(hào)幅度譜與含噪語(yǔ)音信號(hào)幅度譜的比值;將所述估計(jì)的第一掩膜比和所述特征向量輸入到所述注意力機(jī)制網(wǎng)絡(luò),得到估計(jì)的第二掩膜比;根據(jù)所述估計(jì)的第二掩膜比和所述幅度譜,確定估計(jì)的幅度譜,并根據(jù)所述估計(jì)的幅度譜和第二純凈語(yǔ)音樣本的幅度譜確定所述語(yǔ)音增強(qiáng)模型的損失函數(shù);通過(guò)根據(jù)所述損失函數(shù)調(diào)整所述語(yǔ)音增強(qiáng)網(wǎng)絡(luò)和所述注意力機(jī)制網(wǎng)絡(luò)的參數(shù),對(duì)所述語(yǔ)音增強(qiáng)模型進(jìn)行訓(xùn)練。
可選地,第一純凈語(yǔ)音樣本和第二純凈語(yǔ)音樣本可不同。
可選地,所述特征向量可使用特征提取網(wǎng)絡(luò)對(duì)第一純凈語(yǔ)言樣本進(jìn)行特征提取而得到。
可選地,所述將所述估計(jì)的第一掩膜比和所述特征向量輸入到所述注意力機(jī)制網(wǎng)絡(luò),得到第二掩膜比,可包括:將每個(gè)說(shuō)話(huà)人的特征向量擴(kuò)充至與每個(gè)說(shuō)話(huà)人對(duì)應(yīng)的所述估計(jì)的第一掩膜比相同的維度;分別將每個(gè)說(shuō)話(huà)人對(duì)應(yīng)的所述估計(jì)的第一掩膜比與相應(yīng)說(shuō)話(huà)人的擴(kuò)充后的特征向量進(jìn)行串聯(lián)以獲得每個(gè)說(shuō)話(huà)人對(duì)應(yīng)的串聯(lián)特征;將每個(gè)說(shuō)話(huà)人對(duì)應(yīng)的所述串聯(lián)特征作為所述注意力機(jī)制網(wǎng)絡(luò)的輸入。
可選地,所述注意力機(jī)制網(wǎng)絡(luò)可包括線性變換層、第一矩陣乘法層、縮放層、柔性最大值傳輸函數(shù)層、第二矩陣乘法層,其中,所述線性變換層包括三個(gè)全連接層,其中,所述將所述估計(jì)的第一掩膜比和所述特征向量輸入到所述注意力機(jī)制網(wǎng)絡(luò),得到估計(jì)的第二掩膜比,可包括:將所述串聯(lián)特征輸入所述線性變換層的三個(gè)全連接層,分別獲得第一特征向量、第二特征向量和第三特征向量;將第一特征向量和第二特征向量輸入所述第一矩陣乘法層,以將第一特征向量和第二特征向量進(jìn)行矩陣相乘,獲得內(nèi)積特征向量;將所述內(nèi)積特征向量輸入所述縮放層,以將所述內(nèi)積特征向量除以預(yù)定值以進(jìn)行縮放,獲得第一掩膜比分?jǐn)?shù);將第一掩膜比分?jǐn)?shù)輸入所述柔性最大值傳輸函數(shù)層,以將第一掩膜比分?jǐn)?shù)經(jīng)過(guò)柔性最大值傳輸函數(shù),獲得第二掩膜比分?jǐn)?shù);將第二掩膜比分?jǐn)?shù)和第三特征向量輸入所述第二矩陣乘法層,以將第二掩膜比分?jǐn)?shù)和第三特征向量進(jìn)行矩陣相乘,獲得所述估計(jì)的第二掩膜比。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京達(dá)佳互聯(lián)信息技術(shù)有限公司,未經(jīng)北京達(dá)佳互聯(lián)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110096168.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法
- 等級(jí)精細(xì)視力訓(xùn)練表
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 康復(fù)訓(xùn)練器及其定量訓(xùn)練方法和定量訓(xùn)練裝置
- 一種分布式訓(xùn)練中梯度同步方法及裝置
- 訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)預(yù)測(cè)方法及裝置
- 一種模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種計(jì)算機(jī)輔助的自閉癥兒童情感社交康復(fù)訓(xùn)練系統(tǒng)





