[發(fā)明專利]一種基于UNET結(jié)構(gòu)利用傳聲器陣列語(yǔ)音源定位方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011096574.5 | 申請(qǐng)日: | 2020-10-14 |
| 公開(公告)號(hào): | CN112269158B | 公開(公告)日: | 2022-09-16 |
| 發(fā)明(設(shè)計(jì))人: | 王浩;盧晶;劉曉峻;狄敏;姚志強(qiáng) | 申請(qǐng)(專利權(quán))人: | 南京南大電子智慧型服務(wù)機(jī)器人研究院有限公司;南京大學(xué);江蘇南大電子信息技術(shù)股份有限公司 |
| 主分類號(hào): | G01S3/80 | 分類號(hào): | G01S3/80;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) 32249 | 代理人: | 彭雄 |
| 地址: | 210019 江蘇省南京市建*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 unet 結(jié)構(gòu) 利用 傳聲器 陣列 語(yǔ)音 定位 方法 | ||
本發(fā)明公開了一種基于UNET結(jié)構(gòu)利用傳聲器陣列語(yǔ)音源定位方法,步驟如下:(1)生成訓(xùn)練樣本,得到時(shí)?頻域信號(hào),并獲得功率包絡(luò);(2)對(duì)時(shí)?頻域信號(hào)的每個(gè)時(shí)?頻點(diǎn),計(jì)算對(duì)應(yīng)的語(yǔ)音能量占比和直達(dá)路徑語(yǔ)音能量占比;(3)利用步驟(1)生成的樣本訓(xùn)練多任務(wù)UNET結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò);(4)利用已訓(xùn)練的多任務(wù)UNET結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)待測(cè)含噪信號(hào)每個(gè)時(shí)?頻點(diǎn)語(yǔ)音直達(dá)聲能量占比;(5)對(duì)判斷語(yǔ)音直達(dá)聲能量占比較高的時(shí)?頻點(diǎn),應(yīng)用定位方法,得到定位結(jié)果。本發(fā)明的語(yǔ)音聲源定位方法,能夠使得在高混響及高干擾的環(huán)境中,有效去除干擾和混響的影響,獲得精確度和魯棒性較高的結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于多任務(wù)UNET結(jié)構(gòu)、在高干擾及高混響環(huán)境下使用傳聲器陣列的語(yǔ)音聲源定位方法,屬于語(yǔ)音信號(hào)處理的技術(shù)領(lǐng)域。
背景技術(shù)
語(yǔ)音信號(hào)聲源定位(Speech Source Localization,SSL)目的是估計(jì)語(yǔ)音信號(hào)到達(dá)傳聲器陣列時(shí)的角度(Direction-of-Arrival,DOA)。使用一個(gè)傳聲器陣列對(duì)語(yǔ)音信號(hào)進(jìn)行聲源定位,或者說(shuō)DOA估計(jì),在聲信號(hào)處理中是一個(gè)非常重要也是非常熱點(diǎn)的話題。它在很多應(yīng)用場(chǎng)景中對(duì)聲音的捕捉有非常重要的作用,比如智能設(shè)備的人機(jī)語(yǔ)音交互、鏡頭追蹤以及智能監(jiān)控。但是,困難之處在于語(yǔ)音信號(hào)是一個(gè)寬帶的非平穩(wěn)隨機(jī)過(guò)程,同時(shí)還存在本底噪聲、混響和其他干擾聲源。
經(jīng)典的聲源定位的方法可分為TDOA(Time Delay Of Arrival)、SRP(SteeredResponse Power)和Spatial Spectrum三大類;基于數(shù)據(jù)驅(qū)動(dòng)的方法主要是利用卷積神經(jīng)網(wǎng)絡(luò)直接獲取DOA結(jié)果。在大量的實(shí)際應(yīng)用場(chǎng)景中,不僅存在混響,還存在噪聲干擾,目前絕大多數(shù)方法都無(wú)法在這樣的復(fù)雜環(huán)境保持很高的準(zhǔn)確性和魯棒性。
發(fā)明內(nèi)容
發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種基于UNET結(jié)構(gòu)利用傳聲器陣列語(yǔ)音源定位方法,該方法在高混響及高干擾的環(huán)境中,依然可以獲得精確度和魯棒性較高的結(jié)果。
技術(shù)方案:為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
一種基于UNET結(jié)構(gòu)利用傳聲器陣列語(yǔ)音源定位方法,包括以下步驟:
步驟1,利用傳聲器陣列采集語(yǔ)音信號(hào)和干擾信號(hào),獲得含噪語(yǔ)音信號(hào)、全部語(yǔ)音信號(hào)和干凈語(yǔ)音信號(hào)的時(shí)-頻域信號(hào);根據(jù)含噪語(yǔ)音信號(hào)得到含噪信號(hào)的功率譜幅度對(duì)數(shù)值;
步驟2,利用步驟1獲得的時(shí)-頻域信號(hào)計(jì)算含噪語(yǔ)音信號(hào)每個(gè)時(shí)-頻點(diǎn)對(duì)應(yīng)的語(yǔ)音能量占比和語(yǔ)音直達(dá)聲能量占比;獲得時(shí)-頻域空間的全部語(yǔ)音能量占比分布圖和語(yǔ)音直達(dá)聲能量占比分布圖;
含噪語(yǔ)音信號(hào)每個(gè)時(shí)-頻點(diǎn)對(duì)應(yīng)的語(yǔ)音能量占比和語(yǔ)音直達(dá)聲能量占比計(jì)算公式為:
式中,表示含噪語(yǔ)音信號(hào)每個(gè)時(shí)-頻點(diǎn)對(duì)應(yīng)的語(yǔ)音能量占比,表示含噪語(yǔ)音信號(hào)每個(gè)時(shí)-頻點(diǎn)對(duì)應(yīng)的語(yǔ)音直達(dá)聲能量占比,Pd(t,f)是語(yǔ)音直達(dá)聲信號(hào)的能量,t表示幀序數(shù),f表示頻率,Pr(t,f)是全部語(yǔ)音信號(hào)的能量,Pn(t,f)是含噪語(yǔ)音信號(hào)的能量,ξn是保證算法的穩(wěn)定性的小量;
步驟3,利用步驟1獲得的功率譜幅度對(duì)數(shù)值和步驟2獲得的全部語(yǔ)音能量占比分布圖和語(yǔ)音直達(dá)聲能量占比分布圖訓(xùn)練多任務(wù)UNET結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò);利用待測(cè)信號(hào)的功率譜幅度對(duì)數(shù)值和訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)估計(jì)待測(cè)信號(hào)的語(yǔ)音直達(dá)聲時(shí)-頻點(diǎn)分布圖;
所述步驟3中,神經(jīng)網(wǎng)絡(luò)的輸入為功率譜幅度對(duì)數(shù)值,輸出為語(yǔ)音能量占比和語(yǔ)音直達(dá)聲能量占比時(shí)-頻點(diǎn)分布圖,其中,語(yǔ)音能量占比為輔助訓(xùn)練,語(yǔ)音直達(dá)聲時(shí)-頻點(diǎn)分布圖對(duì)應(yīng)的值作為步驟4中用于定位的時(shí)-頻點(diǎn)的選擇依據(jù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京南大電子智慧型服務(wù)機(jī)器人研究院有限公司;南京大學(xué);江蘇南大電子信息技術(shù)股份有限公司,未經(jīng)南京南大電子智慧型服務(wù)機(jī)器人研究院有限公司;南京大學(xué);江蘇南大電子信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011096574.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G01S 無(wú)線電定向;無(wú)線電導(dǎo)航;采用無(wú)線電波測(cè)距或測(cè)速;采用無(wú)線電波的反射或再輻射的定位或存在檢測(cè);采用其他波的類似裝置
G01S3-00 由方向上無(wú)重要性的次聲波、聲波、超聲波或電磁波或者粒子發(fā)射來(lái)測(cè)定方向的定向器
G01S3-02 .利用無(wú)線電波的
G01S3-78 .應(yīng)用了除無(wú)線電波外的其他電磁波
G01S3-80 .應(yīng)用了超聲波、聲波或次聲波
G01S3-801 ..零部件
G01S3-802 ..確定方向或確定相對(duì)于預(yù)定方向的偏移的系統(tǒng)
- 用于檢測(cè)腫瘤的3D UNet網(wǎng)絡(luò)模型構(gòu)建方法、裝置及存儲(chǔ)介質(zhì)
- 一種基于ResNet與UNet模型的圖像分割方法
- 一種基于Capsules-Unet模型的遙感圖像深度學(xué)習(xí)分類方法和系統(tǒng)
- 基于UNet卷積神經(jīng)網(wǎng)絡(luò)的膀胱超聲圖像分割方法及裝置
- 一種基于Unet網(wǎng)絡(luò)的層序地層格架構(gòu)建方法和系統(tǒng)
- 基于改進(jìn)Unet網(wǎng)絡(luò)的電阻焊接剪切強(qiáng)度識(shí)別方法
- 基于改進(jìn)型UNet++網(wǎng)絡(luò)的遙感圖像建筑物提取方法
- 一種基于注意力Unet模型的醫(yī)學(xué)圖像語(yǔ)義分割方法
- 基于卷積稀疏編碼的Unet語(yǔ)義分割方法
- 一種基于UNet的肺部X光圖像分割方法
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)





