[發(fā)明專利]一種語音識別場景中回音消除的方法有效
| 申請?zhí)枺?/td> | 201610598402.5 | 申請日: | 2016-07-27 |
| 公開(公告)號: | CN106297815B | 公開(公告)日: | 2017-09-01 |
| 發(fā)明(設(shè)計(jì))人: | 趙成義;何川 | 申請(專利權(quán))人: | 武漢誠邁科技有限公司 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L21/0208;G10L15/22 |
| 代理公司: | 武漢天力專利事務(wù)所42208 | 代理人: | 吳曉穎 |
| 地址: | 430074 湖北省武漢市東湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 識別 場景 回音 消除 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于語音識別領(lǐng)域,特別涉及一種語音識別場景中回音消除的方法。
背景技術(shù)
隨著人工智能技術(shù)的發(fā)展,語音作為一種很好的人機(jī)交互模式,逐漸被應(yīng)用到很多智能設(shè)備中。語音輸入是通過語音識別將人說話的內(nèi)容轉(zhuǎn)換為文本的一種輸入方式。
在很多領(lǐng)域,用戶可以通過語音輸入的方式代替手動(dòng)輸入來執(zhí)行相應(yīng)命令,例如,用戶可以通過對手機(jī)說“請打開音樂”來打開音樂播放器應(yīng)用程序,然后在播放過程中說“播放下一首”來進(jìn)行歌曲的切換。手機(jī)對用戶輸入的語音信號進(jìn)行識別后,執(zhí)行相應(yīng)操作。
但是,在很多語音識別的使用場景中,如果用于識別輸入語音的設(shè)備自身可能正在播放音頻(例如播放音視頻,語音播報(bào)等),那么從設(shè)備麥克風(fēng)的輸入音頻中混合了該設(shè)備揚(yáng)聲器的播放音頻,也即是揚(yáng)聲器的聲音反饋到麥克風(fēng)中去了,這種存在于設(shè)備麥克風(fēng)輸入音頻中的揚(yáng)聲器播放音頻通常被稱為回音(Acoustic Echo),回音的存在往往會(huì)干擾設(shè)備對外界語音的識別。
圖1是回音消除AEC的簡化原理圖:其中信號1,是從麥克風(fēng)輸入的語音和回音混合而成的語音音頻;另一個(gè)虛線的信號2,是原始的引起回音的音頻。回音消除AEC,就是利用信號1和信號2,從信號1中把回音消除掉,輸出清晰的語音。通常把信號1稱為近端音頻信號ne(near end),信號2稱為遠(yuǎn)端參考音頻信號fe(far end), 現(xiàn)有的回音消除的實(shí)施方案普遍通過網(wǎng)絡(luò)或者使用硬件電路的方法獲取用于回音消除的參考音頻信號fe,并且大部分應(yīng)用于特定的語音通信領(lǐng)域,或者應(yīng)用于消除環(huán)境噪音等。
因此,現(xiàn)有回音消除的實(shí)施方案獲取用于回音消除的參考音頻信號的方法,以及實(shí)施方案不具備消除設(shè)備自身播放的多種音頻(例如播放音視頻,語音播報(bào)等)的功能,不適用于語音識別的場景。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)中的不足,而提出的一種語音識別場景中回音消除的方法,該方法能夠有效減低設(shè)備自身播放的音頻對設(shè)備語音識別功能的干擾,從而讓設(shè)備更加準(zhǔn)確地識別外界語音指令,增強(qiáng)人機(jī)語音交互的操作體驗(yàn)。
本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的。
一種語音識別場景中回音消除的方法,
該方法在硬件方面的預(yù)置條件為:音頻輸入為兩個(gè)數(shù)字1和數(shù)字麥克2,在物理電路上,連接數(shù)字麥克1,不連接數(shù)字麥克2,即數(shù)字麥克2虛焊,不連接真實(shí)的數(shù)字麥克;音頻輸出為一個(gè)揚(yáng)聲器;
在軟件方面的預(yù)置條件為:AEC算法需要使用兩種音頻數(shù)據(jù),分別是從麥克錄制的音頻數(shù)據(jù)和從揚(yáng)聲器播放的音頻數(shù)據(jù)speaker_output,要求錄制音頻必須使用雙聲道的錄制方法;
該方法包括音頻數(shù)字信號處理模塊Audio DSP、回音消除AEC軟件模塊、麥克輸入音頻處理軟件模塊、揚(yáng)聲器輸出音頻處理軟件模塊、語音識別軟件模塊,
音頻數(shù)字信號處理模塊,對輸入輸出的音頻數(shù)據(jù)進(jìn)行編解碼以及各種音頻調(diào)節(jié)處理;
回音消除AEC軟件模塊,對合成的麥克輸入音頻數(shù)據(jù)的左右聲道進(jìn)行算法處理,從麥克錄制的輸入音頻中消除掉所包含的揚(yáng)聲器輸出的音頻;
麥克輸入音頻處理軟件模塊,對麥克輸入音頻進(jìn)行音量的調(diào)節(jié);
揚(yáng)聲器輸出音頻處理軟件模塊,對揚(yáng)聲器輸出音頻進(jìn)行音量的調(diào)節(jié);
語音識別軟件模塊,通過智能分析輸入的語音,驅(qū)動(dòng)系統(tǒng)作出相應(yīng)的操作。
具體的語音識別場景中回音消除的方法步驟如下:
(1)將雙聲道合成算法加載到音頻數(shù)字信號處理模塊Audio DSP中,該算法將數(shù)字麥克1輸入的錄制音頻和將多媒體應(yīng)用程序輸出到揚(yáng)聲器的播放音頻合成一種雙聲道音頻,將其中的揚(yáng)聲器輸出音頻數(shù)據(jù)復(fù)制到麥克輸入音頻數(shù)據(jù)的右聲道中,在這種合成的音頻中左聲道為麥克輸入的音頻,右聲道為揚(yáng)聲器輸出的音頻;
(2)在麥克輸入音頻處理軟件模塊中,將根據(jù)其上層回音消除AEC軟件模塊中AEC算法的需求對合成的麥克輸入音頻進(jìn)行調(diào)整,特別需要調(diào)整右聲道中的揚(yáng)聲器輸出的音頻數(shù)據(jù)的音量,適當(dāng)?shù)囊袅繒?huì)改善通過AEC算法處理后輸出音頻的效果;
(3)在回音消除AEC軟件模塊獲得了合成的雙聲道音頻以后,使用音頻分解算法,分解出左聲道音頻麥克輸入音頻和右聲道音頻揚(yáng)聲器輸出音頻,作為兩路獨(dú)立的單聲道音頻傳入到AEC算法中,通過AEC算法處理以后,輸出清晰的語音音頻,并將其提供給語音識別軟件模塊進(jìn)行語音識別處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢誠邁科技有限公司,未經(jīng)武漢誠邁科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610598402.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:香皂液包裝盒
- 下一篇:一種有封標(biāo)的液化氣鋼瓶
- 電視場景切換的方法及電視
- 視頻場景控制系統(tǒng)及方法
- 場景開關(guān)及其場景開關(guān)構(gòu)件和場景圖標(biāo)卡組件
- 場景聯(lián)動(dòng)方法及場景聯(lián)動(dòng)系統(tǒng)
- 一種視頻場景分類方法、裝置、移動(dòng)終端及存儲介質(zhì)
- 一種Unity3D引擎的場景切換方法和系統(tǒng)
- 一種自動(dòng)駕駛場景分類識別系統(tǒng)及方法
- 一種虛擬場景生成方法、裝置、設(shè)備和存儲介質(zhì)
- 一種汽車圖像場景庫數(shù)據(jù)復(fù)雜度度量方法
- 場景識別方法、裝置、設(shè)備及存儲介質(zhì)





