[發(fā)明專利]基于循環(huán)幀序列門控循環(huán)單元網(wǎng)絡(luò)的語音超分辨率方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011374653.8 | 申請(qǐng)日: | 2020-11-30 |
| 公開(公告)號(hào): | CN112562702B | 公開(公告)日: | 2022-12-13 |
| 發(fā)明(設(shè)計(jì))人: | 關(guān)鍵;柳友德;肖飛揚(yáng);蘆瑤;蘭宇晨;田左;王愷瀚;謝明杰;董喆 | 申請(qǐng)(專利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類號(hào): | G10L21/003 | 分類號(hào): | G10L21/003;G10L25/18;G10L25/24 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區(qū)*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 循環(huán) 序列 門控 單元 網(wǎng)絡(luò) 語音 分辨率 方法 | ||
本發(fā)明提供一種基于循環(huán)幀序列的門控循環(huán)單元網(wǎng)絡(luò)的語音超分辨率方法,包括如下步驟:(1)對(duì)原始語音信號(hào)進(jìn)行預(yù)處理;(2)提出構(gòu)建CFS?GRU模型;(3)完成基于循環(huán)幀序列網(wǎng)絡(luò)的語音超分辨率。本發(fā)明基于GRU搭建的循環(huán)結(jié)構(gòu)模型,直接將語音信號(hào)序列作為輸入,很大程度上減小了計(jì)算代價(jià),并且相比于傳統(tǒng)方法有著較好的超分辨率效果;相比于LSTM,GRU模型有著較少的模型參數(shù),通過GRU搭建的CFS?GRU模型能夠更快的訓(xùn)練和收斂。使用SegSNRLoss作為損失函數(shù)訓(xùn)練的CFS?GRU模型能夠更快的收斂,并且能夠使輸出幀序列有著較高的信噪比,提高超分辨率語音信號(hào)的質(zhì)量。
技術(shù)領(lǐng)域
本發(fā)明涉及的是語音超分辨率領(lǐng)域,具體地說是一種在不影響語音內(nèi)容的情況下將低采樣率語音轉(zhuǎn)換為高分辨率語音的研究。本發(fā)明提出了一種基于循環(huán)幀序列門控循環(huán)單元網(wǎng)絡(luò)的語音超分辨率方法,在更小計(jì)算體量下獲取了更高的語音超分辨率處理性能。
背景技術(shù)
語音超分辨率(Speech Super-Resolution,SSR)又叫做語音帶寬擴(kuò)展(SpeechBandwith Expansion,BWE),目的是通過一定的技術(shù)對(duì)語音進(jìn)行上采樣來提高語音的質(zhì)量。
隨著深度學(xué)習(xí)在語音方向的應(yīng)用,人們逐漸發(fā)現(xiàn)在某一特定采樣率的訓(xùn)練集下訓(xùn)練的神經(jīng)網(wǎng)絡(luò)在其他采樣率的語音上的效果有所下降,對(duì)于一些語音系統(tǒng)一旦經(jīng)過訓(xùn)練就不能動(dòng)態(tài)的更改語音的采樣率來適配不同采樣率的語音輸入。同時(shí),一些語音合成系統(tǒng)可以選擇合成較低分辨率的語音上采樣來獲得理想語音,這樣可以減少訓(xùn)練系統(tǒng)的時(shí)間以及計(jì)算成本。另一方面,根據(jù)研究表明,人們更喜歡聽較大頻率范圍的語音即較高采樣率的語音。對(duì)于聽力受損的人群來說,聽較低采樣率的語音具有一定的困難。通過超分辨率擴(kuò)展帶寬的語音也能增加人工耳蝸的語音識(shí)別率。因此,語音超分辨率在語音系統(tǒng)的應(yīng)用,提升人對(duì)語音的主觀感覺以及提高人工耳蝸的語音識(shí)別率方面都有著重要的現(xiàn)實(shí)意義,國(guó)內(nèi)外學(xué)者對(duì)語音超分辨率進(jìn)行了深入的分析研究。一些主要的語音超分辨率方法包括:
1.一種用于語音帶寬擴(kuò)展的深度神經(jīng)網(wǎng)絡(luò)方法:2015年K.Li and C.-H.Lee,“Adeep neural network approach to speech bandwidth expansion,”in Acoustics,Speech and Signal Processing(ICASSP),2015IEEE International Conferenceon.IEEE,2015,pp.4395–4399.通過深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)對(duì)低采樣率到高采樣率的頻譜映射的估計(jì)來實(shí)現(xiàn)語音超分辨率。
2.使用神經(jīng)網(wǎng)絡(luò)的音頻超分辨率:2017年Volodymyr Kuleshov,S Zayd Enam,andStefano Ermon,“Audio super-resolution using neural networks,”2017.利用深度的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)搭建的具有殘差的深層卷積神經(jīng)網(wǎng)絡(luò)自編碼器來實(shí)現(xiàn)音頻的超分辨率。
3.用于音頻超分辨率的時(shí)頻網(wǎng)絡(luò):2018年T.Y.Lim,R.A.Yeh,Y.Xu,M.N.Do andM.Hasegawa-Johnson,Time-Frequency Networks for Audio Super-Resolution,2018IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Calgary,AB,2018,pp.646-650.提出了一種時(shí)頻網(wǎng)絡(luò)(Time-FrequencyNetwork,TFNet),該網(wǎng)絡(luò)同時(shí)對(duì)高分辨率語音的時(shí)間序列以及頻譜圖進(jìn)行預(yù)測(cè),利用音頻的時(shí)間和頻率維度的監(jiān)督聯(lián)合優(yōu)化來實(shí)現(xiàn)音頻的超分辨率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011374653.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 循環(huán)貨倉(cāng)的錯(cuò)列循環(huán)鏈
- 循環(huán)貨倉(cāng)的錯(cuò)列循環(huán)鏈
- 球循環(huán)機(jī)和球循環(huán)方法
- 循環(huán)扇葉輪及循環(huán)扇
- 循環(huán)過濾式熱風(fēng)循環(huán)烘箱
- 循環(huán)泵(微循環(huán)泵)
- 機(jī)內(nèi)循環(huán)油循環(huán)系統(tǒng)
- 循環(huán)用水機(jī)與循環(huán)系統(tǒng)
- 自動(dòng)熱能循環(huán)利用熱風(fēng)循環(huán)烘箱
- 高溫循環(huán)風(fēng)扇自循環(huán)降溫裝置





