[發(fā)明專利]無(wú)監(jiān)督學(xué)習(xí)的語(yǔ)音增強(qiáng)模型的訓(xùn)練方法、系統(tǒng)和電子設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202310072257.7 | 申請(qǐng)日: | 2023-01-20 |
| 公開(kāi)(公告)號(hào): | CN116129925A | 公開(kāi)(公告)日: | 2023-05-16 |
| 發(fā)明(設(shè)計(jì))人: | 俞凱;江文斌;張一帆 | 申請(qǐng)(專利權(quán))人: | 思必馳科技股份有限公司 |
| 主分類(lèi)號(hào): | G10L21/0208 | 分類(lèi)號(hào): | G10L21/0208;G10L21/0232;G10L25/45;G10L25/30;G10L25/18 |
| 代理公司: | 北京商專永信知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11400 | 代理人: | 黃謙;侯曉艷 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 監(jiān)督 學(xué)習(xí) 語(yǔ)音 增強(qiáng) 模型 訓(xùn)練 方法 系統(tǒng) 電子設(shè)備 | ||
1.一種無(wú)監(jiān)督學(xué)習(xí)的語(yǔ)音增強(qiáng)模型的訓(xùn)練方法,包括:
將訓(xùn)練數(shù)據(jù)集輸入至由降噪語(yǔ)音生成器以及判別器構(gòu)建的基于對(duì)抗生成網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型,其中,所述訓(xùn)練數(shù)據(jù)集包括非配對(duì)的帶噪語(yǔ)音與干凈語(yǔ)音;
將所述帶噪語(yǔ)音輸入至所述降噪語(yǔ)音生成器,輸出降噪語(yǔ)音,基于所述帶噪語(yǔ)音以及所述降噪語(yǔ)音確定降噪損失;
將所述降噪語(yǔ)音以及非配對(duì)的所述干凈語(yǔ)音輸入至所述判別器,基于最優(yōu)傳輸確定出對(duì)抗損失;
基于所述降噪損失、所述對(duì)抗損失分別對(duì)所述降噪語(yǔ)音生成器以及所述判別器進(jìn)行無(wú)監(jiān)督學(xué)習(xí)訓(xùn)練,得到無(wú)監(jiān)督學(xué)習(xí)的語(yǔ)音增強(qiáng)模型。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述對(duì)抗損失包括:用于訓(xùn)練降噪語(yǔ)音生成器的第一對(duì)抗損失以及用于訓(xùn)練判別器的第二對(duì)抗損失;
所述基于所述降噪損失、所述對(duì)抗損失分別對(duì)所述降噪語(yǔ)音生成器以及所述判別器進(jìn)行無(wú)監(jiān)督學(xué)習(xí)訓(xùn)練包括:
基于所述降噪損失以及所述第一對(duì)抗損失對(duì)所述降噪語(yǔ)音生成器進(jìn)行無(wú)監(jiān)督學(xué)習(xí)訓(xùn)練;
基于所述第二對(duì)抗損失以及預(yù)設(shè)梯度懲罰損失對(duì)所述判別器進(jìn)行無(wú)監(jiān)督學(xué)習(xí)訓(xùn)練,直至所述對(duì)抗損失達(dá)到預(yù)設(shè)要求時(shí)為止。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述降噪語(yǔ)音生成器由編碼器以及解碼器構(gòu)成,其中,
所述編碼器包括多個(gè)卷積塊,所述解碼器包括多個(gè)反卷積塊;
所述卷積塊與所述反卷積塊之間由卷積塊注意力塊連接,其中,所述卷積塊注意力塊由通道注意力塊和頻率注意力塊組成;
所述編碼器與所述解碼器之間由包含在頻域建模的長(zhǎng)期短時(shí)記憶層以及在時(shí)域建模的長(zhǎng)期短時(shí)記憶層的雙路塊連接。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述判別器由多個(gè)卷積塊以及多個(gè)線性層構(gòu)成,其中,
所述判別器內(nèi)卷積塊的數(shù)量與所述降噪語(yǔ)音生成器內(nèi)編碼器中的卷積塊的數(shù)量相同;
所述多個(gè)線性層之間包括LeakyRelu激活層,且所述多個(gè)線性層由普歸一化限制。
5.根據(jù)權(quán)利要求1所述的方法,其中,在所述將訓(xùn)練數(shù)據(jù)集輸入至由降噪語(yǔ)音生成器以及判別器構(gòu)建的基于對(duì)抗生成網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型之前,所述方法還包括:
對(duì)所述訓(xùn)練數(shù)據(jù)集進(jìn)行加窗、分幀以及短時(shí)傅里葉變換的預(yù)處理。
6.一種無(wú)監(jiān)督學(xué)習(xí)的語(yǔ)音增強(qiáng)模型的訓(xùn)練系統(tǒng),包括:
數(shù)據(jù)輸入程序模塊,用于將訓(xùn)練數(shù)據(jù)集輸入至由降噪語(yǔ)音生成器以及判別器構(gòu)建的基于對(duì)抗生成網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型,其中,所述訓(xùn)練數(shù)據(jù)集包括非配對(duì)的帶噪語(yǔ)音與干凈語(yǔ)音;
語(yǔ)音降噪程序模塊,用于將所述帶噪語(yǔ)音輸入至所述降噪語(yǔ)音生成器,輸出降噪語(yǔ)音,基于所述帶噪語(yǔ)音以及所述降噪語(yǔ)音確定降噪損失;
對(duì)抗判別程序模塊,用于將所述降噪語(yǔ)音以及非配對(duì)的所述干凈語(yǔ)音輸入至所述判別器,基于最優(yōu)傳輸確定出對(duì)抗損失;
無(wú)監(jiān)督訓(xùn)練程序模塊,用于基于所述降噪損失、所述對(duì)抗損失分別對(duì)所述降噪語(yǔ)音生成器以及所述判別器進(jìn)行無(wú)監(jiān)督學(xué)習(xí)訓(xùn)練,得到無(wú)監(jiān)督學(xué)習(xí)的語(yǔ)音增強(qiáng)模型。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述對(duì)抗損失包括:用于訓(xùn)練降噪語(yǔ)音生成器的第一對(duì)抗損失以及用于訓(xùn)練判別器的第二對(duì)抗損失;
所述無(wú)監(jiān)督訓(xùn)練程序模塊用于:
基于所述降噪損失以及所述第一對(duì)抗損失對(duì)所述降噪語(yǔ)音生成器進(jìn)行無(wú)監(jiān)督學(xué)習(xí)訓(xùn)練;
基于所述第二對(duì)抗損失以及預(yù)設(shè)梯度懲罰損失對(duì)所述判別器進(jìn)行無(wú)監(jiān)督學(xué)習(xí)訓(xùn)練,直至所述對(duì)抗損失達(dá)到預(yù)設(shè)要求時(shí)為止。
8.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述降噪語(yǔ)音生成器由編碼器以及解碼器構(gòu)成,其中,
所述編碼器包括多個(gè)卷積塊,所述解碼器包括多個(gè)反卷積塊;
所述卷積塊與所述反卷積塊之間由卷積塊注意力塊連接,其中,所述卷積塊注意力塊由通道注意力塊和頻率注意力塊組成;
所述編碼器與所述解碼器之間由包含在頻域建模的長(zhǎng)期短時(shí)記憶層以及在時(shí)域建模的長(zhǎng)期短時(shí)記憶層的雙路塊連接。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于思必馳科技股份有限公司,未經(jīng)思必馳科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310072257.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類(lèi)專利
- 專利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對(duì)象尋址方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺(jué)訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺(jué)系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法





