[發(fā)明專利]一種音頻處理方法、裝置、電子設(shè)備和可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201910344914.2 | 申請日: | 2019-04-26 |
| 公開(公告)號: | CN111863014A | 公開(公告)日: | 2020-10-30 |
| 發(fā)明(設(shè)計(jì))人: | 張毅;宋輝;鄧承韻;沙永濤 | 申請(專利權(quán))人: | 北京嘀嘀無限科技發(fā)展有限公司 |
| 主分類號: | G10L21/0216 | 分類號: | G10L21/0216 |
| 代理公司: | 北京超成律師事務(wù)所 11646 | 代理人: | 鄧超 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 音頻 處理 方法 裝置 電子設(shè)備 可讀 存儲 介質(zhì) | ||
本申請?zhí)峁┝艘环N音頻處理方法、裝置、電子設(shè)備和可讀存儲介質(zhì),該音頻處理方法包括:獲取第一語音信號和第二語音信號,其中,所述第一語音信號中包含目標(biāo)語音信號和噪聲信號,所述第二語音信號中包含所述噪聲信號;利用所述第二語音信號,對所述第一語音信號的時(shí)頻譜進(jìn)行重構(gòu)處理,得到所述第一語音信號的噪聲估計(jì);基于所述噪聲估計(jì)和所述第一語音信號的時(shí)頻譜,得到所述目標(biāo)語音信號的時(shí)頻譜,通過上述方法可以得到相對純凈的目標(biāo)語音信號的時(shí)頻譜,從而在對目標(biāo)語音信號的時(shí)頻譜進(jìn)行識別時(shí),有利于提高目標(biāo)語音的識別率。
技術(shù)領(lǐng)域
本申請涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體而言,涉及一種音頻處理方法、裝置、電子設(shè)備和可讀存儲介質(zhì)。
背景技術(shù)
目前,語音識別技術(shù)被應(yīng)用的場景越來越多,語音識別面臨的環(huán)境越來越復(fù)雜,特別是目標(biāo)聲源(例如:點(diǎn)聲源)和噪聲聲源(例如:擴(kuò)散聲源,擴(kuò)散聲源包含回聲和風(fēng)聲等聲源)混合在一起時(shí),此時(shí)對目標(biāo)聲源的語音識別難度較大。
由于噪聲聲源對目標(biāo)聲源會產(chǎn)生較大的干擾,因此在對目標(biāo)聲源和噪聲聲源混合在一起的混合聲源進(jìn)行語音識別時(shí),導(dǎo)致目標(biāo)聲源的識別率較低。
發(fā)明內(nèi)容
有鑒于此,本申請的目的在于提供一種音頻處理方法、裝置、電子設(shè)備和可讀存儲介質(zhì),以提高目標(biāo)聲源的識別率。
第一方面,本申請實(shí)施例提供了一種音頻處理方法,所述音頻處理方法包括:
獲取第一語音信號和第二語音信號,其中,所述第一語音信號中包含目標(biāo)語音信號和噪聲信號,所述第二語音信號中包含所述噪聲信號;
利用所述第二語音信號,對所述第一語音信號的時(shí)頻譜進(jìn)行重構(gòu)處理,得到所述第一語音信號的噪聲估計(jì);
基于所述噪聲估計(jì)和所述第一語音信號的時(shí)頻譜,得到所述目標(biāo)語音信號的時(shí)頻譜。
可選地,當(dāng)所述第二語音信號中還包含所述目標(biāo)語音信號,其中,所述目標(biāo)語音信號在所述第一語音信號中的信號強(qiáng)度占比大于第一閾值,所述目標(biāo)語音信號在所述第二語音信號中的信號強(qiáng)度占比小于第二閾值時(shí),所述利用所述第二語音信號,對所述第一語音信號的時(shí)頻譜進(jìn)行重構(gòu)處理,得到所述第一語音信號的噪聲估計(jì),包括:
分別對所述第一語音信號的時(shí)域信號和所述第二語音信號的時(shí)域信號進(jìn)行傅里葉變換,得到所述第一語音信號的時(shí)頻譜和所述第二語音信號的時(shí)頻譜;
分別對所述第一語音信號的時(shí)頻譜和所述第二語音信號的時(shí)頻譜進(jìn)行非負(fù)矩陣分解NMF處理,得到所述第一語音信號對應(yīng)的第一NMF基矩陣和所述第二語音信號對應(yīng)的第二NMF基矩陣;
根據(jù)所述第一NMF基矩陣和所述第二NMF基矩陣,得到所述噪聲信號的第三NMF基矩陣;
利用所述第三NMF基矩陣,對所述第一語音信號的時(shí)頻譜進(jìn)行重構(gòu)處理,得到所述噪聲估計(jì)。
可選地,所述根據(jù)所述第一NMF基矩陣和所述第二NMF基矩陣,得到所述噪聲信號的第三NMF基矩陣,包括:
根據(jù)所述第一NMF基矩陣,將所述第二NMF基矩陣中的所述目標(biāo)語音信號對應(yīng)的元素去除掉,以得到所述第三NMF基矩陣。
可選地,所述根據(jù)所述第一NMF基矩陣,將所述第二NMF基矩陣中的所述目標(biāo)語音信號對應(yīng)的元素去除掉,以得到所述第三NMF基矩陣,包括:
使用第三閾值,對所述第一NMF基矩陣中的各元素進(jìn)行比較;
根據(jù)比較結(jié)果,確定所述第一NMF基矩陣中大于或者等于所述第三閾值的元素所在的候選位置,以將所述候選位置作為所述目標(biāo)語音信號對應(yīng)的元素在所述第一NMF基矩陣中的位置;
使用數(shù)字0,對所述第二NMF基矩陣中與所述候選位置相同的目標(biāo)位置上的元素進(jìn)行替換,以將替換后的所述第二NMF基矩陣作為所述第三NMF基矩陣。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京嘀嘀無限科技發(fā)展有限公司,未經(jīng)北京嘀嘀無限科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910344914.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





