[發(fā)明專利]基于關(guān)鍵詞改進(jìn)麥克風(fēng)陣列遠(yuǎn)場(chǎng)拾音的方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811058277.4 | 申請(qǐng)日: | 2018-09-11 |
| 公開(kāi)(公告)號(hào): | CN109192219B | 公開(kāi)(公告)日: | 2021-12-17 |
| 發(fā)明(設(shè)計(jì))人: | 董天旭 | 申請(qǐng)(專利權(quán))人: | 四川長(zhǎng)虹電器股份有限公司 |
| 主分類號(hào): | G10L21/0216 | 分類號(hào): | G10L21/0216;G10L21/0208;G10L21/0316;G10L15/08 |
| 代理公司: | 四川省成都市天策商標(biāo)專利事務(wù)所(有限合伙) 51213 | 代理人: | 王荔 |
| 地址: | 621000 四*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 關(guān)鍵詞 改進(jìn) 麥克風(fēng) 陣列 遠(yuǎn)場(chǎng)拾音 方法 | ||
本發(fā)明公開(kāi)了一種基于關(guān)鍵詞改進(jìn)麥克風(fēng)陣列遠(yuǎn)場(chǎng)拾音的方法,在關(guān)鍵詞被關(guān)鍵詞識(shí)別引擎監(jiān)測(cè)到后,首先對(duì)緩存的單幀音源方位進(jìn)行聚類運(yùn)算獲得可信度較高的音源方位,然后使用信號(hào)包絡(luò)最大值計(jì)算遠(yuǎn)場(chǎng)拾音算法的輸入信號(hào)增益,再將設(shè)備切換到喚醒狀態(tài);在喚醒狀態(tài)下,算法包含輸入信號(hào)增益調(diào)整、波束形成、噪聲抑制、混響消除、自動(dòng)增益控制等,此時(shí)自動(dòng)增益控制可以設(shè)置較小的調(diào)整范圍,避免放大作為背景噪聲的低幅值信號(hào),實(shí)現(xiàn)在監(jiān)測(cè)到目標(biāo)關(guān)鍵詞時(shí),根據(jù)關(guān)鍵詞確定出喚醒狀態(tài)下的音源方向和輸入信號(hào)幅值增益,從而提高麥克風(fēng)陣列遠(yuǎn)場(chǎng)拾音的語(yǔ)音增強(qiáng)效果。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,特別涉及基于關(guān)鍵詞改進(jìn)麥克風(fēng)陣列遠(yuǎn)場(chǎng)拾音的方法。
背景技術(shù)
近年來(lái)人工智能呈現(xiàn)爆發(fā)式增長(zhǎng),語(yǔ)音交互是人工智能的一個(gè)重要領(lǐng)域,而遠(yuǎn)場(chǎng)語(yǔ)音友好的人機(jī)交互方式逐漸成為語(yǔ)音交互的主導(dǎo)方式,如智能音箱、車載語(yǔ)音等;麥克風(fēng)陣列和遠(yuǎn)場(chǎng)拾音算法為語(yǔ)音交互提供的高質(zhì)量語(yǔ)音信號(hào)是語(yǔ)音交互的前提。
目前主流的遠(yuǎn)場(chǎng)拾音方式為:設(shè)備大部分時(shí)候在監(jiān)聽(tīng)狀態(tài)下工作,當(dāng)關(guān)鍵詞識(shí)別引擎監(jiān)測(cè)到關(guān)鍵詞后,設(shè)備進(jìn)入喚醒狀態(tài);喚醒狀態(tài)下,輸入語(yǔ)音被識(shí)別為各種交互指令;在交互指令完成后,設(shè)備回到監(jiān)聽(tīng)狀態(tài)。一般情況下,監(jiān)聽(tīng)狀態(tài)下的拾音算法包括:回聲消除、噪聲抑制、混響消除、自動(dòng)增益控制等;喚醒狀態(tài)下,通常設(shè)備處于靜音狀態(tài),拾音算法包括:音源定位、波束形成、噪聲抑制、混響消除、自動(dòng)增益控制等。
遠(yuǎn)場(chǎng)拾音的核心算法是回聲消除和波束形成,噪聲抑制和混響消除常作為回聲消除和波束形成的后處理算法。回聲消除算法已近比較成熟了,它通過(guò)采集設(shè)備自己輸出給喇叭的信號(hào)作為參考信號(hào),以此來(lái)消除麥克風(fēng)拾取信號(hào)中包含的設(shè)備自身喇叭發(fā)出的聲音、從而獲得干凈的外部輸入信號(hào)。
波束形成算法是聲吶和雷達(dá)的核心,旨在拾取目標(biāo)方向的信號(hào)、而其他方向信號(hào)則被過(guò)濾掉,由于其他方向信號(hào)被過(guò)濾掉、則拾取到的目標(biāo)方向信號(hào)的信噪比高、目標(biāo)信號(hào)被增強(qiáng);波束形成算法同樣也是麥克風(fēng)陣列遠(yuǎn)場(chǎng)拾音的核心,目前主要采用廣義旁瓣消除器(GSC)及其改進(jìn)算法,它需要音源定位算法為它指定期望拾取信號(hào)的方向。
音源定位問(wèn)題分為移動(dòng)音源定位和固定音源定位,大多數(shù)情況下的音源定位屬于固定音源定位,如坐在沙發(fā)上與遠(yuǎn)場(chǎng)電視交互時(shí)的音源定位,以及車載語(yǔ)音的音源定位等,本專利處理的音源定位針對(duì)的就是固定音源。
現(xiàn)在的音源定位算法通常指單幀的音源定位,基本原理是不同方向的信號(hào)到達(dá)兩個(gè)麥克風(fēng)的時(shí)間差不同,而通過(guò)廣義互相關(guān)理論可以計(jì)算出兩個(gè)麥克風(fēng)拾取信號(hào)的時(shí)間差,典型算法如GCC-PHAT及其衍生而來(lái)的CSR-PHAT,
單幀音源算法通常采用廣義互相關(guān)最大的方向作為目標(biāo)音源方向,廣義互相關(guān)越大對(duì)應(yīng)的方向?yàn)檎_方向的可能性越大;單幀音源定位算法在信噪比低時(shí),其定位精度低,甚至定位出的是噪聲方向,比如:正在進(jìn)行語(yǔ)音識(shí)別時(shí)的關(guān)門聲“砰”,如果將這個(gè)方向傳遞給波束形成,那么波束形成拾取的信號(hào)是關(guān)門聲“砰”。
增益控制分為遠(yuǎn)場(chǎng)拾音輸入信號(hào)的增益控制和遠(yuǎn)場(chǎng)拾音輸出信號(hào)的增益控制。輸入信號(hào)的增益控制主要由拾音硬件的放大器完成,需要保證近場(chǎng)交互時(shí)語(yǔ)音信號(hào)幅值不能被削頂,這使得遠(yuǎn)場(chǎng)交互時(shí)語(yǔ)音幅值往往偏小,這個(gè)增益通常在拾音硬件校準(zhǔn)后就固定不變了。
由于在遠(yuǎn)場(chǎng)交互時(shí),輸入信號(hào)幅值偏小,遠(yuǎn)場(chǎng)算法處理后的輸出信號(hào)也就偏小,需要采用AGC/DRC等自動(dòng)增益算法調(diào)節(jié)輸出信號(hào)的幅值后再將信號(hào)送入識(shí)別引擎;但這種自動(dòng)增益算法不能設(shè)置較大的調(diào)節(jié)范圍,如果需要放大幅值小的信號(hào),會(huì)導(dǎo)致同等水平的背景噪聲的放大;而如果對(duì)輸入信號(hào)采用自動(dòng)增益算法會(huì)破壞語(yǔ)音輸入信號(hào)通道間的相關(guān)性,使得基于相關(guān)性的多通道算法難以正常工作,如音源定位。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川長(zhǎng)虹電器股份有限公司,未經(jīng)四川長(zhǎng)虹電器股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811058277.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測(cè)方法和裝置
- 關(guān)鍵詞排名的檢測(cè)方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲(chǔ)介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動(dòng)化否定關(guān)鍵詞方法及裝置
- 一種長(zhǎng)尾關(guān)鍵詞識(shí)別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備





