[發(fā)明專利]一種語音增強(qiáng)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)在審

申請(qǐng)?zhí)枺?/td>	202010987302.8	申請(qǐng)日：	2020-09-18
公開（公告）號(hào)：	CN113299308A	公開（公告）日：	2021-08-24
發(fā)明（設(shè)計(jì)）人：	宋琦;洪傳榮;陳思宇;唐磊;王立波	申請(qǐng)（專利權(quán)）人：	阿里巴巴集團(tuán)控股有限公司
主分類號(hào)：	G10L21/0232	分類號(hào)：	G10L21/0232;G10L21/0208
代理公司：	北京開陽星知識(shí)產(chǎn)權(quán)代理有限公司 11710	代理人：	郭鑫
地址：	英屬開曼群島大開***	國省代碼：	暫無信息
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種語音增強(qiáng) 方法裝置電子設(shè)備存儲(chǔ) 介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本公開實(shí)施例涉及一種語音增強(qiáng)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。語音增強(qiáng)方法包括：獲取帶噪語音信號(hào)；將帶噪語音信號(hào)的全頻帶劃分為第一頻寬和第二頻寬；對(duì)第一頻寬對(duì)應(yīng)的帶噪語音信號(hào)進(jìn)行降噪處理，得到第一頻寬對(duì)應(yīng)的第一增益；基于第一增益預(yù)測第二頻寬對(duì)應(yīng)的第二增益；基于第一增益和第二增益，確定帶噪語音信號(hào)在全頻帶下的增強(qiáng)語音信號(hào)。本公開實(shí)施例通過將帶噪語音信號(hào)的全頻帶劃分為低頻帶(第一頻寬)和中高頻帶(第二頻寬)，僅對(duì)低頻帶進(jìn)行降噪處理，而對(duì)中高頻帶進(jìn)行增益預(yù)測，相比現(xiàn)有對(duì)全頻帶進(jìn)行降噪處理的方案，本公開可減少處理的數(shù)據(jù)量和復(fù)雜度，提升了處理的效率和速度，適合在移動(dòng)端設(shè)備部署，實(shí)現(xiàn)流式全頻帶語音增強(qiáng)。

技術(shù)領(lǐng)域

本公開實(shí)施例涉及語音處理技術(shù)領(lǐng)域，具體涉及一種語音增強(qiáng)方法、裝置、電子設(shè)備及非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。

背景技術(shù)

隨著電商直播行業(yè)的發(fā)展和移動(dòng)端設(shè)備的普及，直播場景也逐漸多樣化，不再限于傳統(tǒng)的直播間，在戶外、商場和市場等開闊喧嚷的場景均可以使用移動(dòng)端設(shè)備進(jìn)行直播。

影響直播觀感的兩個(gè)主要因素是畫面和聲音，而直播場景的多樣化對(duì)主播實(shí)時(shí)聲音信號(hào)的處理帶來了新的挑戰(zhàn)，例如直播場景聲音混雜，導(dǎo)致主播的聲音不清晰。

現(xiàn)有技術(shù)中采用語音增強(qiáng)方案從混雜的聲音中提取出主播的聲音。但是，目前的語音增強(qiáng)方案對(duì)非平穩(wěn)突發(fā)性噪聲抑制能力差，增強(qiáng)后的語音中存在殘留噪聲，殘留噪聲會(huì)導(dǎo)致主觀聽感差，甚至影響語音信息傳達(dá)的可懂度。另外，目前的語音增強(qiáng)方案求得解析解的過程中存在很多假設(shè)，難以適應(yīng)復(fù)雜多變的實(shí)際場景。上述對(duì)問題的發(fā)現(xiàn)過程的描述，僅用于輔助理解本公開的技術(shù)方案，并不代表承認(rèn)上述內(nèi)容是現(xiàn)有技術(shù)。

發(fā)明內(nèi)容

為了解決現(xiàn)有技術(shù)存在的至少一個(gè)問題，本公開的至少一個(gè)實(shí)施例提供了一種語音增強(qiáng)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。

第一方面，本公開實(shí)施例提出一種語音增強(qiáng)方法，所述方法包括：

獲取帶噪語音信號(hào)；

將所述帶噪語音信號(hào)的全頻帶劃分為第一頻寬和第二頻寬；

對(duì)所述第一頻寬對(duì)應(yīng)的帶噪語音信號(hào)進(jìn)行降噪處理，得到所述第一頻寬對(duì)應(yīng)的第一增益；

基于所述第一增益預(yù)測所述第二頻寬對(duì)應(yīng)的第二增益；

基于所述第一增益和所述第二增益，確定所述帶噪語音信號(hào)在所述全頻帶下的增強(qiáng)語音信號(hào)。

第二方面，本公開實(shí)施例還提出一種語音增強(qiáng)裝置，所述裝置包括：

獲取單元，用于獲取帶噪語音信號(hào)；將所述帶噪語音信號(hào)的全頻帶劃分為第一頻寬和第二頻寬；

降噪單元，用于對(duì)所述第一頻寬對(duì)應(yīng)的帶噪語音信號(hào)進(jìn)行降噪處理，得到所述第一頻寬對(duì)應(yīng)的第一增益；

預(yù)測單元，用于基于所述第一增益預(yù)測所述第二頻寬對(duì)應(yīng)的第二增益；

確定單元，用于基于所述第一增益和所述第二增益，確定所述帶噪語音信號(hào)在所述全頻帶下的增強(qiáng)語音信號(hào)。

第三方面，本公開實(shí)施例還提出一種電子設(shè)備，包括：處理器和存儲(chǔ)器；所述處理器通過調(diào)用所述存儲(chǔ)器存儲(chǔ)的程序或指令，用于執(zhí)行如第一方面所述語音增強(qiáng)方法的步驟。

第四方面，本公開實(shí)施例還提出一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，用于存儲(chǔ)程序或指令，所述程序或指令使計(jì)算機(jī)執(zhí)行如第一方面所述語音增強(qiáng)方法的步驟。

可見，本公開的至少一個(gè)實(shí)施例中，通過將帶噪語音信號(hào)的全頻帶劃分為低頻帶(第一頻寬)和中高頻帶(第二頻寬)，僅對(duì)低頻帶進(jìn)行降噪處理，而對(duì)中高頻帶進(jìn)行增益預(yù)測，無需對(duì)全頻帶進(jìn)行降噪處理，即可實(shí)現(xiàn)全頻帶語音增強(qiáng)。相比現(xiàn)有對(duì)全頻帶進(jìn)行降噪處理的方案，本公開可減少處理的數(shù)據(jù)量和復(fù)雜度，提升了處理的效率和速度，適合在移動(dòng)端設(shè)備部署，實(shí)現(xiàn)流式全頻帶語音增強(qiáng)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司，未經(jīng)阿里巴巴集團(tuán)控股有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010987302.8/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：一種圖像內(nèi)容檢測結(jié)果核查方法及裝置
下一篇：基于CRISPR技術(shù)進(jìn)行靶核酸多重檢測的方法

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識(shí)別；音頻分析或處理
G10L21-00 為了改變語音信號(hào)的質(zhì)量或其可識(shí)度而處理語音信號(hào)，以產(chǎn)生另一種可聽的或非可聽的信號(hào)，例如視覺信號(hào)或觸覺信號(hào)
G10L21-02 .語音增強(qiáng)，例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語音轉(zhuǎn)換成非可聽表達(dá)形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】