[發(fā)明專利]語音增強(qiáng)模型的訓(xùn)練方法及裝置、語音增強(qiáng)方法及裝置有效
| 申請?zhí)枺?/td> | 202110774752.3 | 申請日: | 2021-07-09 |
| 公開(公告)號: | CN113241088B | 公開(公告)日: | 2021-10-22 |
| 發(fā)明(設(shè)計(jì))人: | 任新蕾;張旭;鄭羲光;陳聯(lián)武;張晨 | 申請(專利權(quán))人: | 北京達(dá)佳互聯(lián)信息技術(shù)有限公司 |
| 主分類號: | G10L21/0216 | 分類號: | G10L21/0216;G10L25/30 |
| 代理公司: | 北京銘碩知識產(chǎn)權(quán)代理有限公司 11286 | 代理人: | 蘇銀虹;王兆賡 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 增強(qiáng) 模型 訓(xùn)練 方法 裝置 | ||
本公開關(guān)于一種語音增強(qiáng)模型的訓(xùn)練方法及裝置、語音增強(qiáng)方法及裝置。該訓(xùn)練方法包括:獲取訓(xùn)練樣本集,其中,訓(xùn)練樣本集中每個(gè)訓(xùn)練樣本包括多通道含噪語音信號和對應(yīng)的多通道干凈語音信號;將多通道含噪語音信號的復(fù)數(shù)譜輸入到復(fù)數(shù)掩碼網(wǎng)絡(luò),得到每個(gè)通道的復(fù)數(shù)掩碼;基于每個(gè)通道的復(fù)數(shù)譜與對應(yīng)的復(fù)數(shù)掩碼,得到每個(gè)通道的增強(qiáng)復(fù)數(shù)譜;將每個(gè)通道的增強(qiáng)復(fù)數(shù)譜輸入到波束形成模塊,得到單通道的預(yù)估增強(qiáng)復(fù)數(shù)譜;基于預(yù)估增強(qiáng)復(fù)數(shù)譜對應(yīng)的預(yù)估時(shí)域信號和多通道干凈語音信號中預(yù)定通道的干凈語音信號,確定語音增強(qiáng)模型的目標(biāo)損失函數(shù);根據(jù)目標(biāo)損失函數(shù)調(diào)整復(fù)數(shù)掩碼網(wǎng)絡(luò)的參數(shù),對語音增強(qiáng)模型進(jìn)行訓(xùn)練。
技術(shù)領(lǐng)域
本公開涉及音視頻領(lǐng)域,尤其涉及一種語音增強(qiáng)模型的訓(xùn)練方法及裝置、語音增強(qiáng)方法及裝置。
背景技術(shù)
近幾年,人們越來越青睞于通過線上音視頻會(huì)議的方式開會(huì),這有助于打破人與人之間的距離障礙,提供更高效的溝通方式。但是,會(huì)議室的背景噪聲、混響和麥克風(fēng)數(shù)量等因素往往會(huì)嚴(yán)重影響會(huì)議期間的語音質(zhì)量。為了提高語音質(zhì)量,人們提出了各種各樣的語音增強(qiáng)算法,如聯(lián)合傳統(tǒng)的信號波束形成算法和基于神經(jīng)網(wǎng)絡(luò)的單通道語音增強(qiáng)方法,即使用神經(jīng)網(wǎng)絡(luò)估計(jì)出單通道掩碼mask,然后使用該mask計(jì)算信號波束形成算法中所需的噪聲協(xié)方差矩陣等統(tǒng)計(jì)量,最后使用傳統(tǒng)的信號波束形成算法進(jìn)行語音增強(qiáng)。但是,該方案還是以傳統(tǒng)的信號波束形成算法為主,沒有充分利用神經(jīng)網(wǎng)絡(luò)的優(yōu)勢,導(dǎo)致語音增強(qiáng)性能提升有限。
發(fā)明內(nèi)容
本公開提供一種語音增強(qiáng)模型的訓(xùn)練方法及裝置、語音增強(qiáng)方法及裝置,以至少解決相關(guān)技術(shù)中的語音增強(qiáng)算法沒有很好的提升語音增強(qiáng)性能的問題。
根據(jù)本公開實(shí)施例的第一方面,提供一種語音增強(qiáng)模型的訓(xùn)練方法,語音增強(qiáng)模型包括復(fù)數(shù)掩碼網(wǎng)絡(luò)和波束形成模塊,訓(xùn)練方法包括:獲取訓(xùn)練樣本集,其中,訓(xùn)練樣本集中每個(gè)訓(xùn)練樣本包括多通道含噪語音信號和對應(yīng)的多通道干凈語音信號,多通道含噪語音信號是對應(yīng)的多通道干凈語音信號添加噪聲和混響后的語音信號;將多通道含噪語音信號的復(fù)數(shù)譜輸入到復(fù)數(shù)掩碼網(wǎng)絡(luò),得到每個(gè)通道的復(fù)數(shù)掩碼,其中,復(fù)數(shù)掩碼表示的是含噪語音信號中干凈語音信號的占比;基于每個(gè)通道的復(fù)數(shù)譜與對應(yīng)的復(fù)數(shù)掩碼,得到每個(gè)通道的增強(qiáng)復(fù)數(shù)譜;將每個(gè)通道的增強(qiáng)復(fù)數(shù)譜輸入到波束形成模塊,得到單通道的預(yù)估增強(qiáng)復(fù)數(shù)譜;基于預(yù)估增強(qiáng)復(fù)數(shù)譜對應(yīng)的預(yù)估時(shí)域信號和多通道干凈語音信號中預(yù)定通道的干凈語音信號,確定語音增強(qiáng)模型的目標(biāo)損失函數(shù);根據(jù)目標(biāo)損失函數(shù)調(diào)整復(fù)數(shù)掩碼網(wǎng)絡(luò)的參數(shù),對語音增強(qiáng)模型進(jìn)行訓(xùn)練。
可選地,基于預(yù)估增強(qiáng)復(fù)數(shù)譜對應(yīng)的預(yù)估時(shí)域信號和多通道干凈語音信號中預(yù)定通道的干凈語音信號,確定語音增強(qiáng)模型的目標(biāo)損失函數(shù),包括:基于預(yù)估時(shí)域信號、多通道干凈語音信號中預(yù)定通道的干凈語音信號和預(yù)定通道的噪聲信號,確定語音增強(qiáng)模型的目標(biāo)損失函數(shù)。
可選地,基于預(yù)估時(shí)域信號、多通道干凈語音信號中預(yù)定通道的干凈語音信號和預(yù)定通道的噪聲信號,確定語音增強(qiáng)模型的目標(biāo)損失函數(shù),包括:基于多通道干凈語音信號中預(yù)定通道的干凈語音信號和預(yù)定通道的含噪語音信號,獲取真實(shí)噪聲信號;基于預(yù)估時(shí)域信號和預(yù)定通道的含噪語音信號,獲取預(yù)估噪聲信號;基于預(yù)估時(shí)域信號、預(yù)定通道的干凈語音信號、預(yù)估噪聲信號和真實(shí)噪聲信號,確定語音增強(qiáng)模型的目標(biāo)損失函數(shù)。
可選地,基于預(yù)估時(shí)域信號、預(yù)定通道的干凈語音信號、預(yù)估噪聲信號和真實(shí)噪聲信號,確定語音增強(qiáng)模型的目標(biāo)損失函數(shù),包括:基于預(yù)估時(shí)域信號和預(yù)定通道的干凈語音信號的差值的絕對值、預(yù)估噪聲信號和真實(shí)噪聲信號的差值的絕對值,確定語音增強(qiáng)模型的目標(biāo)損失函數(shù)。
可選地,預(yù)定通道為多通道對應(yīng)的麥克風(fēng)陣列中位置居中的通道。
可選地,復(fù)數(shù)掩碼網(wǎng)絡(luò)包括因果U-NET網(wǎng)絡(luò)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京達(dá)佳互聯(lián)信息技術(shù)有限公司,未經(jīng)北京達(dá)佳互聯(lián)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110774752.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法





