[發(fā)明專利]信號處理的方法和電子設(shè)備在審
| 申請?zhí)枺?/td> | 202011065346.1 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN114333831A | 公開(公告)日: | 2022-04-12 |
| 發(fā)明(設(shè)計)人: | 鮑光照;陳禮文;黃磊 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L21/0216;G10L21/028 |
| 代理公司: | 北京龍雙利達(dá)知識產(chǎn)權(quán)代理有限公司 11329 | 代理人: | 張卿;時林 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 信號 處理 方法 電子設(shè)備 | ||
本申請實施例提供了信號處理的方法和電子設(shè)備,該方法通過攝像頭得到第一視頻,結(jié)合麥克風(fēng)陣列得到的第一音頻信號,確定正在與電子設(shè)備進(jìn)行語音交互的目標(biāo)用戶所在的目標(biāo)聲源方向,可以大幅提高目標(biāo)聲源方向的估計精度,以及,通過攝像頭獲取的在目標(biāo)聲源方向的用戶唇部視頻和預(yù)設(shè)的語音增強(qiáng)模型,對通過麥克風(fēng)陣列獲取的第二音頻信號做語音增強(qiáng)處理,由于語音增強(qiáng)模型中集成了發(fā)音和唇型的對應(yīng)關(guān)系,結(jié)合用戶唇部視頻和語音增強(qiáng)模型,可以恢復(fù)出較為干凈的第三音頻信號,最終,可以有效地提高語音識別效率。
技術(shù)領(lǐng)域
本申請涉及聲學(xué)領(lǐng)域,更具體地,涉及一種信號處理的方法和電子設(shè)備。
背景技術(shù)
當(dāng)前,例如智能電視、智能音箱、智能電燈等智能設(shè)備都可進(jìn)行遠(yuǎn)揚拾音,例如,用戶在5米外說一句“關(guān)燈”的指令,智能設(shè)備拾取語音且識別語音,并控制電燈執(zhí)行對應(yīng)的關(guān)燈動作。
常用的遠(yuǎn)場拾音技術(shù)是利用麥克風(fēng)陣列拾取音頻信號,并借助波束形成技術(shù)和回聲消除算法,實現(xiàn)對環(huán)境噪聲和回聲的抑制,以得到較為清晰的音頻信號。但是,實際環(huán)境中可能有各種噪聲和干擾,例如廚房的做菜洗碗噪聲、電視節(jié)目噪聲、家人聊天的干擾噪聲等,以及,部分家庭的房間空曠或者裝潢的墻壁采用了聲反射系數(shù)大的材料,導(dǎo)致混響較大,聲音容易發(fā)糊,所有這些不利因素都會導(dǎo)致采用麥克風(fēng)陣列拾取的聲音的清晰度大大降低,從而導(dǎo)致語音識別率大幅下降。
因此,需要提供一種技術(shù),可以大幅提高語音識別效率。
發(fā)明內(nèi)容
本申請實施例提供了一種信號處理的方法和電子設(shè)備,通過一個音頻信號和基于攝像頭獲得的視頻,確定正在和電子設(shè)備進(jìn)行語音交互的用戶所在的目標(biāo)聲源方向,進(jìn)而,基于攝像頭獲得的在該目標(biāo)聲源方向的用戶唇部視頻和預(yù)設(shè)的語音增強(qiáng)模型,對拾取的音頻信號做語音增強(qiáng)處理,得到或恢復(fù)出較為清晰的音頻信號,可以大幅提高語音識別效率。
第一方面,提供了一種信號處理的方法,其特征在于,應(yīng)用于電子設(shè)備,所述電子設(shè)備包括麥克風(fēng)陣列和攝像頭,所述方法包括:
對通過所述麥克風(fēng)陣列獲得的第一音頻信號進(jìn)行聲源定位,獲得聲源方向信息;
對通過所述攝像頭獲得的第一視頻進(jìn)行處理,獲得用戶方向信息;
根據(jù)所述聲源方向信息和所述用戶方向信息,確定目標(biāo)聲源方向;
通過所述攝像頭獲得在所述目標(biāo)聲源方向的用戶唇部視頻;
通過所述麥克風(fēng)陣列獲得第二音頻信號;
根據(jù)所述第二音頻信號和所述用戶唇部視頻,通過語音增強(qiáng)模型,獲得第三音頻信號,所述語音增強(qiáng)模型包括發(fā)音和唇型的對應(yīng)關(guān)系。
聲源方向信息包括至少一個聲源方向,該至少一個聲源方向包括目標(biāo)聲源方向。用戶方向信息包括與用戶相關(guān)的一些方向,示例性地,包括與用戶相關(guān)的至少一種類型的方向。目標(biāo)聲源方向是正在和電子設(shè)備進(jìn)行語音交互的目標(biāo)用戶所在的方向,即,目標(biāo)用戶發(fā)出的聲音的來源方向。
用戶唇部視頻中記錄有用戶說話過程中的多個唇型,唇型與發(fā)音具有對應(yīng)關(guān)系,即,一個唇型可對應(yīng)一個或多個發(fā)音,當(dāng)用戶不說話時,唇部處于靜止?fàn)顟B(tài)。在目標(biāo)聲源方向的用戶唇部視頻實際上也可以理解為目標(biāo)用戶的唇部視頻。
語音增強(qiáng)模型的目的是對音頻信號做拾音增強(qiáng)處理,增強(qiáng)在目標(biāo)聲源方向的音頻信號,抑制或消除其他方向的包括說話人或背景噪聲等產(chǎn)生的音頻信號,以得到或恢復(fù)出較為清晰的音頻信號。本申請實施例的語音增強(qiáng)模型融合了音視頻的信息,集成了發(fā)音和唇型的對應(yīng)關(guān)系,即,一個或多個發(fā)音可對應(yīng)一個唇型。
示例性地,攝像頭是可旋轉(zhuǎn)的攝像頭,在確定目標(biāo)聲源方向后,可將攝像頭旋轉(zhuǎn)至目標(biāo)聲源方向,拍攝在目標(biāo)聲源方向的用戶唇部視頻。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011065346.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 亮度信號/色信號分離裝置和亮度信號/色信號分離方法
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 雙耳信號的信號生成
- 雙耳信號的信號生成
- 信號處理裝置、信號處理方法、信號處理程序
- USBTYPEC信號轉(zhuǎn)HDMI信號的信號轉(zhuǎn)換線
- 信號盒(信號轉(zhuǎn)換)
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置





