[發(fā)明專利]基于深度學(xué)習(xí)的語(yǔ)音分離方法在審
| 申請(qǐng)?zhí)枺?/td> | 201910337555.8 | 申請(qǐng)日: | 2019-04-25 |
| 公開(kāi)(公告)號(hào): | CN110148419A | 公開(kāi)(公告)日: | 2019-08-20 |
| 發(fā)明(設(shè)計(jì))人: | 孫林慧;陶澤 | 申請(qǐng)(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號(hào): | G10L21/0208 | 分類號(hào): | G10L21/0208;G10L21/0264;G10L21/0308;G10L25/30 |
| 代理公司: | 南京蘇科專利代理有限責(zé)任公司 32102 | 代理人: | 姚姣陽(yáng) |
| 地址: | 210003 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 測(cè)試集 訓(xùn)練集 語(yǔ)音 歸一化處理 訓(xùn)練模型 算法 神經(jīng)網(wǎng)絡(luò) 預(yù)處理 傅里葉變換 分離效果 信號(hào)通過(guò) 真實(shí)環(huán)境 可懂度 信噪比 學(xué)習(xí) 預(yù)測(cè) 聯(lián)合 | ||
本發(fā)明揭示了一種基于深度學(xué)習(xí)的語(yǔ)音分離方法,首先是將含有多個(gè)語(yǔ)音的信號(hào)劃分為訓(xùn)練集信號(hào)和測(cè)試集信號(hào),并將訓(xùn)練集信號(hào)與測(cè)試集信號(hào)分別進(jìn)行預(yù)處理,之后進(jìn)行傅里葉變換,得到訓(xùn)練集信號(hào)的幅度和相位、及測(cè)試集信號(hào)的幅度和相位,然后再將訓(xùn)練集信號(hào)的幅度和相位、及測(cè)試集信號(hào)的幅度和相位均進(jìn)行歸一化處理;接著將歸一化處理后訓(xùn)練集信號(hào)的幅度和相位通過(guò)訓(xùn)練模型進(jìn)行訓(xùn)練,且訓(xùn)練模型的算法采用深度神經(jīng)網(wǎng)絡(luò)的adam算法;最后將歸一化處理后測(cè)試集信號(hào)通過(guò)訓(xùn)練模型預(yù)測(cè),并完成語(yǔ)音分離;本發(fā)明將幅度與相位聯(lián)合訓(xùn)練,在真實(shí)環(huán)境下語(yǔ)音分離效果更佳;另外,本發(fā)明采用深度神經(jīng)網(wǎng)絡(luò)的adam算法,使信噪比與語(yǔ)音的可懂度得到大幅度提高。
技術(shù)領(lǐng)域
本發(fā)明涉及一種語(yǔ)音分離方法,尤其涉及一種基于深度學(xué)習(xí)的語(yǔ)音分離方法,屬于語(yǔ)音信號(hào)處理技術(shù)領(lǐng)域。
背景技術(shù)
現(xiàn)實(shí)生活中存在著各式各樣的噪音,人們感興趣的聲音往往都是純凈的聲音,然而現(xiàn)實(shí)中很難有完全純凈的聲音,人們感興趣的聲音中都或多或少地夾雜著噪音,這些噪音降低了語(yǔ)音可懂度和信噪比,然而怎樣進(jìn)行語(yǔ)音分離,從而提高可懂度并且降低信噪比,成為一個(gè)非常關(guān)鍵的問(wèn)題。語(yǔ)音分離問(wèn)題最早來(lái)源于Cherry在1953年提出的著名的雞尾酒會(huì)問(wèn)題,雞尾酒會(huì)問(wèn)題是一個(gè)在計(jì)算機(jī)和通信方面的語(yǔ)音識(shí)別和分離領(lǐng)域的交叉問(wèn)題。目前,語(yǔ)音識(shí)別技術(shù)對(duì)于降噪問(wèn)題已經(jīng)有了很大的進(jìn)展,能基本完全實(shí)現(xiàn)一個(gè)人的語(yǔ)音聲音降噪,然而,面對(duì)兩人或者多人同時(shí)講話的時(shí)候,如何將語(yǔ)音進(jìn)行分離,仍然是一個(gè)比較困難的問(wèn)題。
語(yǔ)音分離任務(wù)可根據(jù)干擾的不同分為三類:當(dāng)干擾部分是噪聲信號(hào)時(shí),它可以被稱為“語(yǔ)音增強(qiáng)”;當(dāng)干擾部分是其他揚(yáng)聲器時(shí),它可以被稱為“揚(yáng)聲器分離”;當(dāng)干擾部分是目標(biāo)說(shuō)話人自己的聲音的反射波時(shí),它可以被稱為“去混響”。由于麥克風(fēng)收集的聲音可能包括噪聲,其他人的語(yǔ)音,混響等的聲音,如果語(yǔ)音未被分離和直接識(shí)別,則識(shí)別的準(zhǔn)確性可能受到影響。因此,將語(yǔ)音分離技術(shù)添加到語(yǔ)音識(shí)別的前端可以通過(guò)將目標(biāo)說(shuō)話者的語(yǔ)音與其他干擾分離來(lái)提高語(yǔ)音識(shí)別系統(tǒng)的魯棒性,這也是現(xiàn)代語(yǔ)音識(shí)別系統(tǒng)中不可或缺的部分。
目前解決語(yǔ)音分離問(wèn)題的方法分為兩類,即無(wú)監(jiān)督的語(yǔ)音分離和有監(jiān)督的語(yǔ)音分離。有監(jiān)督的語(yǔ)音分離又稱為基于深度學(xué)習(xí)的語(yǔ)音分離,由于近些年計(jì)算機(jī)CPU和GPU性能的提高和發(fā)展,有監(jiān)督的語(yǔ)音分離可以利用大數(shù)據(jù)量進(jìn)行訓(xùn)練,得到比無(wú)監(jiān)督的語(yǔ)音分離更好的效果;而且在前人研究中可以發(fā)現(xiàn),大多數(shù)人實(shí)驗(yàn)過(guò)程中都是忽略相位的影響,大多默認(rèn)測(cè)試相位,只對(duì)幅值進(jìn)行訓(xùn)練,且分離效果并不好。
綜上所述,如何采用深度學(xué)習(xí)的語(yǔ)音分離方法且可提高語(yǔ)音分離效果,就成為本領(lǐng)域技術(shù)人員亟待解決的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決現(xiàn)有技術(shù)的上述缺陷,提出基于深度學(xué)習(xí)的相位與幅度聯(lián)合訓(xùn)練的語(yǔ)音分離方法,使得分離得到的語(yǔ)音信號(hào)性能較好。
本發(fā)明的技術(shù)解決方案是:
S1:將含有多個(gè)語(yǔ)音的信號(hào)劃分為訓(xùn)練集信號(hào)和測(cè)試集信號(hào),并將訓(xùn)練集信號(hào)與測(cè)試集信號(hào)分別進(jìn)行預(yù)處理;然后將預(yù)處理后的訓(xùn)練集信號(hào)與預(yù)處理后的測(cè)試集信號(hào)分別進(jìn)行傅里葉變換,得到訓(xùn)練集信號(hào)的幅度和相位、及測(cè)試集信號(hào)的幅度和相位;之后,分別將訓(xùn)練集信號(hào)的幅度和相位、及測(cè)試集信號(hào)的幅度和相位均進(jìn)行歸一化處理;
S2:將步驟S1中歸一化處理后訓(xùn)練集信號(hào)的幅度和相位通過(guò)訓(xùn)練模型進(jìn)行訓(xùn)練,且訓(xùn)練模型的算法采用深度神經(jīng)網(wǎng)絡(luò)的adam算法;
S3:將所述步驟S1中測(cè)試集信號(hào)的幅度和相位通過(guò)所述訓(xùn)練模型分別得到預(yù)測(cè)幅度值和預(yù)測(cè)相位值;接著,將所述預(yù)測(cè)幅度值和預(yù)測(cè)相位值通過(guò)傅里葉反變換得到預(yù)測(cè)信號(hào)進(jìn)行輸出,完成語(yǔ)音分離。
優(yōu)選地,所述訓(xùn)練集信號(hào)包括混合訓(xùn)練集信號(hào)與純凈訓(xùn)練集信號(hào),所述測(cè)試集信號(hào)包括混合測(cè)試集信號(hào)與純凈測(cè)試集信號(hào)。
優(yōu)選地,所述訓(xùn)練集信號(hào)與測(cè)試集信號(hào)的占比為97:3。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910337555.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 一種最小測(cè)試用例集的生成方法及系統(tǒng)
- 液體測(cè)試裝置
- 列車通信網(wǎng)絡(luò)一致性測(cè)試方法及裝置
- 監(jiān)聽(tīng)接口測(cè)試結(jié)果的方法及裝置
- 一種對(duì)測(cè)試用例進(jìn)行精簡(jiǎn)的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種處理器指令集測(cè)試方法和裝置
- 一種模糊測(cè)試方法、裝置、設(shè)備及介質(zhì)
- 控制器的硬件在環(huán)測(cè)試方法及裝置
- 一種基于網(wǎng)絡(luò)異常節(jié)點(diǎn)分析的軟件故障定位方法及系統(tǒng)
- 一種基于WEB的汽車電子基礎(chǔ)軟件測(cè)試系統(tǒng)
- 一種訓(xùn)練集的拆分方法及裝置
- 一種訓(xùn)練集的訓(xùn)練方法及裝置
- 多重半監(jiān)督圖像的季節(jié)分類方法、系統(tǒng)、電子設(shè)備和介質(zhì)
- 一種基于特征分布的訓(xùn)練集生成、模型訓(xùn)練方法及裝置
- 訓(xùn)練集的獲取方法、裝置及電子設(shè)備
- 選擇模型訓(xùn)練方法、模型選擇方法、裝置及電子設(shè)備
- 一種工業(yè)物聯(lián)網(wǎng)下的模型智能訓(xùn)練方法
- 一種基于集成學(xué)習(xí)的深度學(xué)習(xí)缺陷圖像識(shí)別方法及系統(tǒng)
- 一種基于最優(yōu)訓(xùn)練集的深度學(xué)習(xí)圖像分類方法及系統(tǒng)
- 一種文本立場(chǎng)檢測(cè)方法
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 音頻再現(xiàn)裝置
- 周期函數(shù)自變量變換裝置、方法及應(yīng)用其的通信設(shè)備
- 采用DMA控制器進(jìn)行數(shù)據(jù)歸一化處理的方法
- 通過(guò)歸一化相關(guān)值進(jìn)行幀頭信號(hào)識(shí)別的方法及裝置
- 基于圖像檢測(cè)的車輛識(shí)別方法
- 一種異構(gòu)漏洞掃描器數(shù)據(jù)歸一化處理裝置及方法
- 一種平臺(tái)在軌標(biāo)定方法
- 實(shí)體歸一化處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種擬態(tài)歸一化裁決系統(tǒng)、方法及可讀存儲(chǔ)介質(zhì)
- 圖像處理裝置及其方法、顯示裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)





