[發(fā)明專利]一種基于多任務(wù)學(xué)習(xí)的端到端聲源定位方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201910043338.8 | 申請(qǐng)日: | 2019-01-17 |
| 公開(公告)號(hào): | CN109782231B | 公開(公告)日: | 2020-11-20 |
| 發(fā)明(設(shè)計(jì))人: | 曲天書;吳璽宏;黃炎坤 | 申請(qǐng)(專利權(quán))人: | 北京大學(xué) |
| 主分類號(hào): | G01S5/22 | 分類號(hào): | G01S5/22 |
| 代理公司: | 北京君尚知識(shí)產(chǎn)權(quán)代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100871 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 任務(wù) 學(xué)習(xí) 端到端 聲源 定位 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于多任務(wù)學(xué)習(xí)的端到端聲源定位方法及系統(tǒng)。本方法為:1)對(duì)于待掃描的每個(gè)聲源位置,計(jì)算聲音信號(hào)從該聲源位置傳輸?shù)礁鼷溈孙L(fēng)位置的延時(shí);2)根據(jù)時(shí)延對(duì)該麥克風(fēng)陣列每次掃描時(shí)各麥克風(fēng)所采集的多通道幀級(jí)別的時(shí)域信號(hào)進(jìn)行相應(yīng)延時(shí)補(bǔ)償;3)將每一延時(shí)補(bǔ)償后的時(shí)域信號(hào)輸入到一對(duì)應(yīng)的CNN模型進(jìn)行特征提取并輸入到一深度神經(jīng)網(wǎng)絡(luò);4)該深度神經(jīng)網(wǎng)絡(luò)根據(jù)各CNN模型提取的特征估計(jì)出每一掃描位置的多通道聲源信號(hào);5)對(duì)于每一掃描位置,計(jì)算該掃描位置對(duì)應(yīng)的多通道聲源信號(hào)的互相關(guān)系數(shù)和,選取相關(guān)系數(shù)和最大的位置作為聲源位置。本發(fā)明能夠自行提取合適的特征,并引入多任務(wù)學(xué)習(xí)機(jī)制,提高模型的定位性能。
技術(shù)領(lǐng)域
本發(fā)明屬于陣列信號(hào)處理技術(shù)領(lǐng)域,涉及麥克風(fēng)陣列和聲源定位方法,具體涉及一種基于多任務(wù)學(xué)習(xí)的端到端的聲源定位方法及系統(tǒng)。
背景技術(shù)
隨著人工智能技術(shù)的發(fā)展,機(jī)器聽覺受到了大家的廣泛關(guān)注,許多與機(jī)器聽覺相關(guān)的技術(shù)與研究領(lǐng)域相繼出現(xiàn)。聲源定位技術(shù)是機(jī)器聽覺系統(tǒng)中一項(xiàng)基礎(chǔ)又重要的技術(shù),其本質(zhì)是模仿人雙耳的功能,通過麥克風(fēng)陣列對(duì)聲音信號(hào)進(jìn)行采集,進(jìn)而對(duì)發(fā)聲物體的位置進(jìn)行判斷。聲源定位技術(shù)可以獨(dú)立應(yīng)用于很多領(lǐng)域,如視頻會(huì)議、鳴笛車輛識(shí)別等,同時(shí)也可以為很多技術(shù)提供了基礎(chǔ)性的位置信息,如語(yǔ)音增強(qiáng)等。因此,我們通過優(yōu)化提高聲源定位算法的定位準(zhǔn)確性,能將其應(yīng)用到很多領(lǐng)域,并在一定程度上能夠推動(dòng)其他技術(shù)的發(fā)展,為其他技術(shù)提供有力地支持。
根據(jù)定位原理,聲源定位技術(shù)大致可分為以下五類:基于到達(dá)時(shí)間差估計(jì)、基于高分辨率譜估計(jì)、基于可控波束形成、基于傳遞函數(shù)以及基于神經(jīng)網(wǎng)絡(luò)的方法。
基于到達(dá)時(shí)間差估計(jì)的方法是先通過估計(jì)聲音信號(hào)到達(dá)不同麥克風(fēng)之間的時(shí)間差,再根據(jù)到達(dá)時(shí)間差和陣列的空間幾何關(guān)系來推斷出聲源位置。該方法把定位過程分為兩個(gè)步驟,會(huì)出現(xiàn)誤差傳遞的問題,即到達(dá)時(shí)間差估計(jì)不準(zhǔn)確,誤差會(huì)傳遞到第二步驟。而且到達(dá)時(shí)間差很難準(zhǔn)確地估計(jì),定位準(zhǔn)確率不高。
基于高分辨率譜估計(jì)的方法有多重信號(hào)分類(MUSIC),最小方差譜估計(jì)(MVM)等等。該類方法是通過對(duì)麥克風(fēng)陣列采集的信號(hào)構(gòu)成協(xié)方差矩陣,利用EVD進(jìn)行特征分解,從而得到與信號(hào)分量相對(duì)應(yīng)的信號(hào)子空間及與噪聲分量相對(duì)應(yīng)的噪聲子空間,利用這兩個(gè)子空間估計(jì)目標(biāo)方位。該方法具有較高的空間分辨率,但在有混響的情況下性能較差。因?yàn)榛祉懬闆r下的噪聲具有方向性,且與信號(hào)是同源,因此具有較強(qiáng)的相關(guān)性。此時(shí)仍通過特征分解來確定聲源位置很容易誤判。
基于可控波束形成的方法是一種基于掃描的方法,它對(duì)所有可能的聲源位置進(jìn)行逐一掃描。針對(duì)每一個(gè)掃描位置來說,通過對(duì)麥克風(fēng)陣列采集到的信號(hào)進(jìn)行延時(shí)補(bǔ)償形成波束,并計(jì)算形成波束的輸出功率,選擇輸出功率最大對(duì)應(yīng)的位置作為估計(jì)的聲源位置,典型的算法有基于相位變換加權(quán)的可控響應(yīng)功率(SRP-PHAT)。該方法只考慮了到達(dá)時(shí)間差的信息,沒有利用幅度差的信息,在高混響和低信噪比的情況下很容易受到噪聲影響。
基于傳遞函數(shù)的方法也是一種掃描的方法,它是通過實(shí)測(cè)聲音信號(hào)從每個(gè)聲源位置到每個(gè)麥克風(fēng)的傳輸特性,即傳遞函數(shù)。通過對(duì)麥克風(fēng)陣列采集的信號(hào)進(jìn)行逆濾波操作恢復(fù)出多通道的源信號(hào),即恢復(fù)其時(shí)間差和強(qiáng)度差,進(jìn)而通過對(duì)多通道的源信號(hào)進(jìn)行相關(guān)性的檢測(cè),選取相關(guān)性最大對(duì)應(yīng)的位置作為聲源位置。該方法綜合利用了到達(dá)時(shí)間差和強(qiáng)度差的定位信息,但是該方法需要實(shí)測(cè)傳遞函數(shù),在無法實(shí)測(cè)的場(chǎng)景下則無法使用。此外,在低信噪比和高混響的環(huán)境下,幾乎不可能測(cè)得準(zhǔn)確的傳遞函數(shù),測(cè)得的傳遞函數(shù)魯棒性較差,定位性能不佳。而且,實(shí)測(cè)獲得的傳遞函數(shù)對(duì)環(huán)境強(qiáng)相關(guān),很難遷移到并適用于其他環(huán)境。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910043338.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G01S 無線電定向;無線電導(dǎo)航;采用無線電波測(cè)距或測(cè)速;采用無線電波的反射或再輻射的定位或存在檢測(cè);采用其他波的類似裝置
G01S5-00 通過確定兩個(gè)或更多個(gè)方向或位置線的配合來定位;通過確定兩個(gè)或更多個(gè)距離的配合進(jìn)行定位
G01S5-02 .利用無線電波
G01S5-16 .應(yīng)用了除無線電波外的其他電磁波
G01S5-18 .應(yīng)用了超聲波、聲波或次聲波
G01S5-20 ..由多個(gè)分隔開的定向器確定的信號(hào)源位置
G01S5-22 ..用多條由路徑差測(cè)量確定的位置線的配合確定信號(hào)源的位置
- 任務(wù)協(xié)作裝置及方法
- 用于量化任務(wù)價(jià)值的任務(wù)管理方法及裝置
- 用于運(yùn)行任務(wù)的系統(tǒng)、方法和裝置
- 一種分布式任務(wù)調(diào)度系統(tǒng)及方法
- 任務(wù)信息處理方法
- 一種同步任務(wù)異步執(zhí)行的方法和調(diào)度系統(tǒng)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 一種自動(dòng)分配和推送的任務(wù)管理平臺(tái)及方法
- 程序執(zhí)行控制的裝置及方法、終端和存儲(chǔ)介質(zhì)
- 基于會(huì)話的任務(wù)待辦方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





