[發(fā)明專利]信號處理的方法和電子設(shè)備在審

申請?zhí)枺?/td>	202011065346.1	申請日：	2020-09-30
公開（公告）號：	CN114333831A	公開（公告）日：	2022-04-12
發(fā)明（設(shè)計）人：	鮑光照;陳禮文;黃磊	申請（專利權(quán)）人：	華為技術(shù)有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G10L21/0216;G10L21/028
代理公司：	北京龍雙利達(dá)知識產(chǎn)權(quán)代理有限公司 11329	代理人：	張卿;時林
地址：	518129 廣東***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	信號處理方法電子設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例提供了信號處理的方法和電子設(shè)備，該方法通過攝像頭得到第一視頻，結(jié)合麥克風(fēng)陣列得到的第一音頻信號，確定正在與電子設(shè)備進(jìn)行語音交互的目標(biāo)用戶所在的目標(biāo)聲源方向，可以大幅提高目標(biāo)聲源方向的估計精度，以及，通過攝像頭獲取的在目標(biāo)聲源方向的用戶唇部視頻和預(yù)設(shè)的語音增強(qiáng)模型，對通過麥克風(fēng)陣列獲取的第二音頻信號做語音增強(qiáng)處理，由于語音增強(qiáng)模型中集成了發(fā)音和唇型的對應(yīng)關(guān)系，結(jié)合用戶唇部視頻和語音增強(qiáng)模型，可以恢復(fù)出較為干凈的第三音頻信號，最終，可以有效地提高語音識別效率。

技術(shù)領(lǐng)域

本申請涉及聲學(xué)領(lǐng)域，更具體地，涉及一種信號處理的方法和電子設(shè)備。

背景技術(shù)

當(dāng)前，例如智能電視、智能音箱、智能電燈等智能設(shè)備都可進(jìn)行遠(yuǎn)揚拾音，例如，用戶在5米外說一句“關(guān)燈”的指令，智能設(shè)備拾取語音且識別語音，并控制電燈執(zhí)行對應(yīng)的關(guān)燈動作。

常用的遠(yuǎn)場拾音技術(shù)是利用麥克風(fēng)陣列拾取音頻信號，并借助波束形成技術(shù)和回聲消除算法，實現(xiàn)對環(huán)境噪聲和回聲的抑制，以得到較為清晰的音頻信號。但是，實際環(huán)境中可能有各種噪聲和干擾，例如廚房的做菜洗碗噪聲、電視節(jié)目噪聲、家人聊天的干擾噪聲等，以及，部分家庭的房間空曠或者裝潢的墻壁采用了聲反射系數(shù)大的材料，導(dǎo)致混響較大，聲音容易發(fā)糊，所有這些不利因素都會導(dǎo)致采用麥克風(fēng)陣列拾取的聲音的清晰度大大降低，從而導(dǎo)致語音識別率大幅下降。

因此，需要提供一種技術(shù)，可以大幅提高語音識別效率。

發(fā)明內(nèi)容

本申請實施例提供了一種信號處理的方法和電子設(shè)備，通過一個音頻信號和基于攝像頭獲得的視頻，確定正在和電子設(shè)備進(jìn)行語音交互的用戶所在的目標(biāo)聲源方向，進(jìn)而，基于攝像頭獲得的在該目標(biāo)聲源方向的用戶唇部視頻和預(yù)設(shè)的語音增強(qiáng)模型，對拾取的音頻信號做語音增強(qiáng)處理，得到或恢復(fù)出較為清晰的音頻信號，可以大幅提高語音識別效率。

第一方面，提供了一種信號處理的方法，其特征在于，應(yīng)用于電子設(shè)備，所述電子設(shè)備包括麥克風(fēng)陣列和攝像頭，所述方法包括：

對通過所述麥克風(fēng)陣列獲得的第一音頻信號進(jìn)行聲源定位，獲得聲源方向信息；

對通過所述攝像頭獲得的第一視頻進(jìn)行處理，獲得用戶方向信息；

根據(jù)所述聲源方向信息和所述用戶方向信息，確定目標(biāo)聲源方向；

通過所述攝像頭獲得在所述目標(biāo)聲源方向的用戶唇部視頻；

通過所述麥克風(fēng)陣列獲得第二音頻信號；

根據(jù)所述第二音頻信號和所述用戶唇部視頻，通過語音增強(qiáng)模型，獲得第三音頻信號，所述語音增強(qiáng)模型包括發(fā)音和唇型的對應(yīng)關(guān)系。

聲源方向信息包括至少一個聲源方向，該至少一個聲源方向包括目標(biāo)聲源方向。用戶方向信息包括與用戶相關(guān)的一些方向，示例性地，包括與用戶相關(guān)的至少一種類型的方向。目標(biāo)聲源方向是正在和電子設(shè)備進(jìn)行語音交互的目標(biāo)用戶所在的方向，即，目標(biāo)用戶發(fā)出的聲音的來源方向。

用戶唇部視頻中記錄有用戶說話過程中的多個唇型，唇型與發(fā)音具有對應(yīng)關(guān)系，即，一個唇型可對應(yīng)一個或多個發(fā)音，當(dāng)用戶不說話時，唇部處于靜止?fàn)顟B(tài)。在目標(biāo)聲源方向的用戶唇部視頻實際上也可以理解為目標(biāo)用戶的唇部視頻。

語音增強(qiáng)模型的目的是對音頻信號做拾音增強(qiáng)處理，增強(qiáng)在目標(biāo)聲源方向的音頻信號，抑制或消除其他方向的包括說話人或背景噪聲等產(chǎn)生的音頻信號，以得到或恢復(fù)出較為清晰的音頻信號。本申請實施例的語音增強(qiáng)模型融合了音視頻的信息，集成了發(fā)音和唇型的對應(yīng)關(guān)系，即，一個或多個發(fā)音可對應(yīng)一個唇型。

示例性地，攝像頭是可旋轉(zhuǎn)的攝像頭，在確定目標(biāo)聲源方向后，可將攝像頭旋轉(zhuǎn)至目標(biāo)聲源方向，拍攝在目標(biāo)聲源方向的用戶唇部視頻。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司，未經(jīng)華為技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011065346.1/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：鉗口組件及施夾鉗
下一篇：一種鋼預(yù)應(yīng)力型混凝土組合梁及其澆筑模具

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

[發(fā)明專利]信號處理的方法和電子設(shè)備在審

專利文獻(xiàn)下載