[發(fā)明專利]一種語音識別場景中回音消除的方法有效

申請?zhí)枺?/td>	201610598402.5	申請日：	2016-07-27
公開（公告）號：	CN106297815B	公開（公告）日：	2017-09-01
發(fā)明（設(shè)計(jì)）人：	趙成義;何川	申請（專利權(quán)）人：	武漢誠邁科技有限公司
主分類號：	G10L21/02	分類號：	G10L21/02;G10L21/0208;G10L15/22
代理公司：	武漢天力專利事務(wù)所42208	代理人：	吳曉穎
地址：	430074 湖北省武漢市東湖***	國省代碼：	湖北;42
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種語音識別場景回音消除方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

技術(shù)領(lǐng)域

本發(fā)明屬于語音識別領(lǐng)域，特別涉及一種語音識別場景中回音消除的方法。

背景技術(shù)

隨著人工智能技術(shù)的發(fā)展，語音作為一種很好的人機(jī)交互模式，逐漸被應(yīng)用到很多智能設(shè)備中。語音輸入是通過語音識別將人說話的內(nèi)容轉(zhuǎn)換為文本的一種輸入方式。

在很多領(lǐng)域，用戶可以通過語音輸入的方式代替手動(dòng)輸入來執(zhí)行相應(yīng)命令，例如，用戶可以通過對手機(jī)說“請打開音樂”來打開音樂播放器應(yīng)用程序，然后在播放過程中說“播放下一首”來進(jìn)行歌曲的切換。手機(jī)對用戶輸入的語音信號進(jìn)行識別后，執(zhí)行相應(yīng)操作。

但是，在很多語音識別的使用場景中，如果用于識別輸入語音的設(shè)備自身可能正在播放音頻（例如播放音視頻，語音播報(bào)等），那么從設(shè)備麥克風(fēng)的輸入音頻中混合了該設(shè)備揚(yáng)聲器的播放音頻，也即是揚(yáng)聲器的聲音反饋到麥克風(fēng)中去了，這種存在于設(shè)備麥克風(fēng)輸入音頻中的揚(yáng)聲器播放音頻通常被稱為回音（Acoustic Echo），回音的存在往往會(huì)干擾設(shè)備對外界語音的識別。

圖1是回音消除AEC的簡化原理圖：其中信號1，是從麥克風(fēng)輸入的語音和回音混合而成的語音音頻；另一個(gè)虛線的信號2，是原始的引起回音的音頻。回音消除AEC，就是利用信號1和信號2，從信號1中把回音消除掉，輸出清晰的語音。通常把信號1稱為近端音頻信號ne(near end)，信號2稱為遠(yuǎn)端參考音頻信號fe(far end)，現(xiàn)有的回音消除的實(shí)施方案普遍通過網(wǎng)絡(luò)或者使用硬件電路的方法獲取用于回音消除的參考音頻信號fe，并且大部分應(yīng)用于特定的語音通信領(lǐng)域，或者應(yīng)用于消除環(huán)境噪音等。

因此，現(xiàn)有回音消除的實(shí)施方案獲取用于回音消除的參考音頻信號的方法，以及實(shí)施方案不具備消除設(shè)備自身播放的多種音頻（例如播放音視頻，語音播報(bào)等）的功能，不適用于語音識別的場景。

發(fā)明內(nèi)容

本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)中的不足，而提出的一種語音識別場景中回音消除的方法，該方法能夠有效減低設(shè)備自身播放的音頻對設(shè)備語音識別功能的干擾，從而讓設(shè)備更加準(zhǔn)確地識別外界語音指令，增強(qiáng)人機(jī)語音交互的操作體驗(yàn)。

本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的。

一種語音識別場景中回音消除的方法，

該方法在硬件方面的預(yù)置條件為：音頻輸入為兩個(gè)數(shù)字1和數(shù)字麥克2，在物理電路上，連接數(shù)字麥克1，不連接數(shù)字麥克2，即數(shù)字麥克2虛焊，不連接真實(shí)的數(shù)字麥克；音頻輸出為一個(gè)揚(yáng)聲器；

在軟件方面的預(yù)置條件為：AEC算法需要使用兩種音頻數(shù)據(jù)，分別是從麥克錄制的音頻數(shù)據(jù)和從揚(yáng)聲器播放的音頻數(shù)據(jù)speaker_output，要求錄制音頻必須使用雙聲道的錄制方法；

該方法包括音頻數(shù)字信號處理模塊Audio DSP、回音消除AEC軟件模塊、麥克輸入音頻處理軟件模塊、揚(yáng)聲器輸出音頻處理軟件模塊、語音識別軟件模塊，

音頻數(shù)字信號處理模塊，對輸入輸出的音頻數(shù)據(jù)進(jìn)行編解碼以及各種音頻調(diào)節(jié)處理；

回音消除AEC軟件模塊，對合成的麥克輸入音頻數(shù)據(jù)的左右聲道進(jìn)行算法處理，從麥克錄制的輸入音頻中消除掉所包含的揚(yáng)聲器輸出的音頻；

麥克輸入音頻處理軟件模塊，對麥克輸入音頻進(jìn)行音量的調(diào)節(jié)；

揚(yáng)聲器輸出音頻處理軟件模塊，對揚(yáng)聲器輸出音頻進(jìn)行音量的調(diào)節(jié)；

語音識別軟件模塊，通過智能分析輸入的語音，驅(qū)動(dòng)系統(tǒng)作出相應(yīng)的操作。

具體的語音識別場景中回音消除的方法步驟如下：

（1）將雙聲道合成算法加載到音頻數(shù)字信號處理模塊Audio DSP中，該算法將數(shù)字麥克1輸入的錄制音頻和將多媒體應(yīng)用程序輸出到揚(yáng)聲器的播放音頻合成一種雙聲道音頻，將其中的揚(yáng)聲器輸出音頻數(shù)據(jù)復(fù)制到麥克輸入音頻數(shù)據(jù)的右聲道中，在這種合成的音頻中左聲道為麥克輸入的音頻，右聲道為揚(yáng)聲器輸出的音頻；

（2）在麥克輸入音頻處理軟件模塊中，將根據(jù)其上層回音消除AEC軟件模塊中AEC算法的需求對合成的麥克輸入音頻進(jìn)行調(diào)整，特別需要調(diào)整右聲道中的揚(yáng)聲器輸出的音頻數(shù)據(jù)的音量，適當(dāng)?shù)囊袅繒?huì)改善通過AEC算法處理后輸出音頻的效果；

（3）在回音消除AEC軟件模塊獲得了合成的雙聲道音頻以后，使用音頻分解算法，分解出左聲道音頻麥克輸入音頻和右聲道音頻揚(yáng)聲器輸出音頻，作為兩路獨(dú)立的單聲道音頻傳入到AEC算法中，通過AEC算法處理以后，輸出清晰的語音音頻，并將其提供給語音識別軟件模塊進(jìn)行語音識別處理。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢誠邁科技有限公司，未經(jīng)武漢誠邁科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201610598402.5/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：香皂液包裝盒
下一篇：一種有封標(biāo)的液化氣鋼瓶

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L21-00 為了改變語音信號的質(zhì)量或其可識度而處理語音信號，以產(chǎn)生另一種可聽的或非可聽的信號，例如視覺信號或觸覺信號
G10L21-02 .語音增強(qiáng)，例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語音轉(zhuǎn)換成非可聽表達(dá)形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】