[發(fā)明專利]一種基于時(shí)延補(bǔ)償和雙耳一致性的雙耳聲音源定位方法有效
| 申請?zhí)枺?/td> | 201410142777.1 | 申請日: | 2014-04-10 |
| 公開(公告)號: | CN103901400A | 公開(公告)日: | 2014-07-02 |
| 發(fā)明(設(shè)計(jì))人: | 劉宏;張結(jié);丁潤偉 | 申請(專利權(quán))人: | 北京大學(xué)深圳研究生院 |
| 主分類號: | G01S5/18 | 分類號: | G01S5/18 |
| 代理公司: | 北京君尚知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11200 | 代理人: | 余長江 |
| 地址: | 518055 廣東省深*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 補(bǔ)償 一致性 聲音 定位 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于信息技術(shù)領(lǐng)域,涉及一種應(yīng)用在語音感知和語音增強(qiáng)中的雙耳聲源定位方法,具體涉及一種基于時(shí)延補(bǔ)償和雙耳一致性的雙耳聲音源定位方法。
背景技術(shù)
雙耳聲源定位是聲源定位技術(shù)發(fā)展的一個(gè)重要分支。雙耳定位充分利用了雙麥克風(fēng)的易搭載性和耳廓的濾波特性,在智能監(jiān)控、移動(dòng)機(jī)器人、虛擬現(xiàn)實(shí)、視頻會(huì)議等研究中有著重要的應(yīng)用。它是聲源定位技術(shù)的一個(gè)重要分支,不僅利用了雙麥克風(fēng)簡易的陣列結(jié)構(gòu),又結(jié)合人耳聽覺特性成功克服了雙麥克風(fēng)定位的前后向歧義性。
雙耳聲源定位技術(shù)在機(jī)器人聽覺、人機(jī)交互領(lǐng)域有著重要的應(yīng)用。一般來講機(jī)器人聽覺包括聲源信號的定位與分離、自動(dòng)語音識別、說話人識別等。機(jī)器人聽覺聲源定位是指機(jī)器人利用搭載在機(jī)器人上或者外部設(shè)備上的麥克風(fēng)陣列定位出聲源的相對位置。而機(jī)器人的雙耳定位則是期望機(jī)器人能夠像人或者其他哺乳動(dòng)物一樣僅僅利用兩個(gè)聲音傳感器完成聲源信號的定位。
聲源定位技術(shù)在語音識別領(lǐng)域也得到廣泛應(yīng)用。在視頻會(huì)議中,通過聲源定位技術(shù)控制攝像頭,使其自動(dòng)地轉(zhuǎn)向感興趣的說話人方向。對于高速行駛的車輛,為避免駕駛員用手去接聽電話,車載免提電話應(yīng)運(yùn)而生。然而,當(dāng)車中坐有多個(gè)說話人時(shí),語音識別系統(tǒng)就無法辨別實(shí)際命令的來源,此時(shí)就需要一種定位系統(tǒng)來提取駕駛員方位的語音,進(jìn)而對其命令作出響應(yīng)。助聽器的出現(xiàn)為有聽力障礙的殘疾人提供了幫助?;陉嚵械恼Z音增強(qiáng)技術(shù)利用聲源的位置信息進(jìn)行空間濾波,可以進(jìn)一步抑制除說話人以外的其它方向的噪聲,使得助聽器話音更加清晰。近年來,基于聲源定位技術(shù)的電子筆系統(tǒng)成為研究熱點(diǎn),用于接收的麥克風(fēng)陣列以不同的方式集成在顯示器邊緣,此時(shí)設(shè)計(jì)出的電子筆就可以在屏幕上進(jìn)行書寫或者相應(yīng)地控制操作。
在語音分離中,聲源定位技術(shù)有助于混疊語音的分離。語音分離源于“雞尾酒會(huì)”問題,就是人們能夠在眾多談話聲和噪聲中集中聽力于某個(gè)人的聲音的能力,長期以來它被認(rèn)為是一個(gè)具有挑戰(zhàn)性的問題。“雞尾酒會(huì)”問題也常被稱做“雞尾酒會(huì)效應(yīng)”。在語音識別技術(shù)中,這方面的研究具有重要的實(shí)際意義。如果把聲源定位技術(shù)應(yīng)用到語音分離中,將會(huì)大大增強(qiáng)感興趣方向的語音識別,有助于混疊語音的分離。
基本上,雙耳聲音源定位是一個(gè)模式分類的問題。類似于自動(dòng)語音識別,其主要的兩大步驟分別是:語音信號處理和模式分類。首先通過雙耳傳聲器接收原始的聲音源信號,并進(jìn)行模數(shù)轉(zhuǎn)換,把模擬聲音信號轉(zhuǎn)換成數(shù)字信號。在信號處理階段,首先對原始信號進(jìn)行預(yù)處理:降噪和濾波,信號預(yù)加重,分幀并加窗,對于每幀信號提取特征時(shí)域的特征或頻域特征組成特征向量。特征向量可以有效表征聲源的位置信息。模式分類階段,通過與定位系統(tǒng)中的先驗(yàn)知識(即模板)進(jìn)行比對從而得出定位結(jié)果?,F(xiàn)有的聲源定位系統(tǒng)包括以下步驟:
1、語音錄入,預(yù)濾波、模數(shù)變換。先把錄入的模擬聲音信號進(jìn)行預(yù)濾波,高通濾波抑制50Hz電源噪聲信號;低通濾波濾除聲音信號中頻率分量超過采樣頻率一半的部分,防止混疊干擾,對模擬聲音信號進(jìn)行采樣和量化得到數(shù)字信號。
2、預(yù)加重。信號通過高頻加重濾波器沖激響應(yīng)H(z)=1-0.95z-1,以補(bǔ)償嘴唇輻射帶來的高頻衰減。
3、分幀、加窗。由于語音信號的慢時(shí)變性,整體非平穩(wěn),局部平穩(wěn),一般認(rèn)為語音信號在10-30ms內(nèi)是平穩(wěn)的,可以把聲音信號按照20ms的長度進(jìn)行分幀。分幀函數(shù)為:
xk(n)=w(n)s(Nk+n)n=0,1...N-1;k=0,1...L-1??(1)其中N為幀長,L為幀數(shù)。w(n)為窗函數(shù),它的選擇(形狀和長度)對短時(shí)分析參數(shù)的特性影響很大,常用的窗函數(shù)包括矩形窗、漢寧窗和漢明窗等。一般選用漢明窗,可以很好地反應(yīng)語音信號的特性變化,漢明窗表達(dá)式為:
4、特征提取。每幀信號可以提取特征以表征本幀信號所包含的信息,現(xiàn)常用于聲源定位系統(tǒng)的雙耳特征包括雙耳時(shí)間差(Interaural?Time?Difference,ITD)、雙耳能量差(Interaural?Intensity?Difference,IID),雙耳相位差(Interaural?Phase?Difference,IPD)等,前面兩種特征是應(yīng)用最多的。
5、在線定位。從雙耳傳聲器接收的音頻信號中提取特征與模板中存儲的特征進(jìn)行全局匹配,差別最小的情況被視為聲源最有可能出現(xiàn)的位置。不過在幾何定位中則是直接利用雙耳特征與環(huán)境位置之間的關(guān)系計(jì)算聲源的坐標(biāo),這種模式理論上可以得到準(zhǔn)確解,但是易受環(huán)境噪聲及混響等因素的干擾。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué)深圳研究生院,未經(jīng)北京大學(xué)深圳研究生院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410142777.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 掩模版彎曲補(bǔ)償裝置、檢測補(bǔ)償系統(tǒng)及補(bǔ)償方法
- 半主動(dòng)升沉補(bǔ)償裝置控制系統(tǒng)
- 像素補(bǔ)償方法、裝置及電視
- 顯示面板的補(bǔ)償方法、補(bǔ)償裝置及存儲介質(zhì)
- 光學(xué)補(bǔ)償方法、光學(xué)補(bǔ)償系統(tǒng)、顯示方法和顯示裝置
- 一種光瞳補(bǔ)償裝置和光刻機(jī)
- 改善低壓差線性穩(wěn)壓器全負(fù)載穩(wěn)定性的補(bǔ)償方法及其電路
- 一種油量傳感器油位補(bǔ)償裝置
- 適用于長線傳輸?shù)母咝阅茈妷貉a(bǔ)償器
- 一種多抽頭補(bǔ)償電抗器智能投切控制裝置實(shí)現(xiàn)方法





