[發(fā)明專利]一種音頻處理方法、裝置、電子設(shè)備和可讀存儲介質(zhì)在審

申請?zhí)枺?/td>	201910344914.2	申請日：	2019-04-26
公開（公告）號：	CN111863014A	公開（公告）日：	2020-10-30
發(fā)明（設(shè)計(jì)）人：	張毅;宋輝;鄧承韻;沙永濤	申請（專利權(quán)）人：	北京嘀嘀無限科技發(fā)展有限公司
主分類號：	G10L21/0216	分類號：	G10L21/0216
代理公司：	北京超成律師事務(wù)所 11646	代理人：	鄧超
地址：	100193 北京***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種音頻處理方法裝置電子設(shè)備可讀存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請?zhí)峁┝艘环N音頻處理方法、裝置、電子設(shè)備和可讀存儲介質(zhì)，該音頻處理方法包括：獲取第一語音信號和第二語音信號，其中，所述第一語音信號中包含目標(biāo)語音信號和噪聲信號，所述第二語音信號中包含所述噪聲信號；利用所述第二語音信號，對所述第一語音信號的時(shí)頻譜進(jìn)行重構(gòu)處理，得到所述第一語音信號的噪聲估計(jì)；基于所述噪聲估計(jì)和所述第一語音信號的時(shí)頻譜，得到所述目標(biāo)語音信號的時(shí)頻譜，通過上述方法可以得到相對純凈的目標(biāo)語音信號的時(shí)頻譜，從而在對目標(biāo)語音信號的時(shí)頻譜進(jìn)行識別時(shí)，有利于提高目標(biāo)語音的識別率。

技術(shù)領(lǐng)域

本申請涉及計(jì)算機(jī)技術(shù)領(lǐng)域，具體而言，涉及一種音頻處理方法、裝置、電子設(shè)備和可讀存儲介質(zhì)。

背景技術(shù)

目前，語音識別技術(shù)被應(yīng)用的場景越來越多，語音識別面臨的環(huán)境越來越復(fù)雜，特別是目標(biāo)聲源(例如：點(diǎn)聲源)和噪聲聲源(例如：擴(kuò)散聲源，擴(kuò)散聲源包含回聲和風(fēng)聲等聲源)混合在一起時(shí)，此時(shí)對目標(biāo)聲源的語音識別難度較大。

由于噪聲聲源對目標(biāo)聲源會產(chǎn)生較大的干擾，因此在對目標(biāo)聲源和噪聲聲源混合在一起的混合聲源進(jìn)行語音識別時(shí)，導(dǎo)致目標(biāo)聲源的識別率較低。

發(fā)明內(nèi)容

有鑒于此，本申請的目的在于提供一種音頻處理方法、裝置、電子設(shè)備和可讀存儲介質(zhì)，以提高目標(biāo)聲源的識別率。

第一方面，本申請實(shí)施例提供了一種音頻處理方法，所述音頻處理方法包括：

獲取第一語音信號和第二語音信號，其中，所述第一語音信號中包含目標(biāo)語音信號和噪聲信號，所述第二語音信號中包含所述噪聲信號；

利用所述第二語音信號，對所述第一語音信號的時(shí)頻譜進(jìn)行重構(gòu)處理，得到所述第一語音信號的噪聲估計(jì)；

基于所述噪聲估計(jì)和所述第一語音信號的時(shí)頻譜，得到所述目標(biāo)語音信號的時(shí)頻譜。

可選地，當(dāng)所述第二語音信號中還包含所述目標(biāo)語音信號，其中，所述目標(biāo)語音信號在所述第一語音信號中的信號強(qiáng)度占比大于第一閾值，所述目標(biāo)語音信號在所述第二語音信號中的信號強(qiáng)度占比小于第二閾值時(shí)，所述利用所述第二語音信號，對所述第一語音信號的時(shí)頻譜進(jìn)行重構(gòu)處理，得到所述第一語音信號的噪聲估計(jì)，包括：

分別對所述第一語音信號的時(shí)域信號和所述第二語音信號的時(shí)域信號進(jìn)行傅里葉變換，得到所述第一語音信號的時(shí)頻譜和所述第二語音信號的時(shí)頻譜；

分別對所述第一語音信號的時(shí)頻譜和所述第二語音信號的時(shí)頻譜進(jìn)行非負(fù)矩陣分解NMF處理，得到所述第一語音信號對應(yīng)的第一NMF基矩陣和所述第二語音信號對應(yīng)的第二NMF基矩陣；

根據(jù)所述第一NMF基矩陣和所述第二NMF基矩陣，得到所述噪聲信號的第三NMF基矩陣；

利用所述第三NMF基矩陣，對所述第一語音信號的時(shí)頻譜進(jìn)行重構(gòu)處理，得到所述噪聲估計(jì)。

可選地，所述根據(jù)所述第一NMF基矩陣和所述第二NMF基矩陣，得到所述噪聲信號的第三NMF基矩陣，包括：

根據(jù)所述第一NMF基矩陣，將所述第二NMF基矩陣中的所述目標(biāo)語音信號對應(yīng)的元素去除掉，以得到所述第三NMF基矩陣。

可選地，所述根據(jù)所述第一NMF基矩陣，將所述第二NMF基矩陣中的所述目標(biāo)語音信號對應(yīng)的元素去除掉，以得到所述第三NMF基矩陣，包括：

使用第三閾值，對所述第一NMF基矩陣中的各元素進(jìn)行比較；

根據(jù)比較結(jié)果，確定所述第一NMF基矩陣中大于或者等于所述第三閾值的元素所在的候選位置，以將所述候選位置作為所述目標(biāo)語音信號對應(yīng)的元素在所述第一NMF基矩陣中的位置；

使用數(shù)字0，對所述第二NMF基矩陣中與所述候選位置相同的目標(biāo)位置上的元素進(jìn)行替換，以將替換后的所述第二NMF基矩陣作為所述第三NMF基矩陣。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京嘀嘀無限科技發(fā)展有限公司，未經(jīng)北京嘀嘀無限科技發(fā)展有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910344914.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：驗(yàn)證方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
下一篇：樣本復(fù)檢方法及樣本分析儀

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L21-00 為了改變語音信號的質(zhì)量或其可識度而處理語音信號，以產(chǎn)生另一種可聽的或非可聽的信號，例如視覺信號或觸覺信號
G10L21-02 .語音增強(qiáng)，例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語音轉(zhuǎn)換成非可聽表達(dá)形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】