[發明專利]一種基于UNET結構利用傳聲器陣列語音源定位方法有效
| 申請號: | 202011096574.5 | 申請日: | 2020-10-14 |
| 公開(公告)號: | CN112269158B | 公開(公告)日: | 2022-09-16 |
| 發明(設計)人: | 王浩;盧晶;劉曉峻;狄敏;姚志強 | 申請(專利權)人: | 南京南大電子智慧型服務機器人研究院有限公司;南京大學;江蘇南大電子信息技術股份有限公司 |
| 主分類號: | G01S3/80 | 分類號: | G01S3/80;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 彭雄 |
| 地址: | 210019 江蘇省南京市建*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 unet 結構 利用 傳聲器 陣列 語音 定位 方法 | ||
1.一種基于UNET結構利用傳聲器陣列語音源定位方法,其特征在于,包括以下步驟:
步驟1,利用傳聲器陣列采集語音信號和干擾信號,獲得含噪語音信號、全部語音信號和干凈語音信號的時-頻域信號;根據含噪語音信號得到含噪信號的功率譜幅度對數值;
步驟2,利用步驟1獲得的時-頻域信號計算含噪語音信號每個時-頻點對應的語音能量占比和語音直達聲能量占比;獲得時-頻域空間的全部語音能量占比分布圖和語音直達聲能量占比分布圖;
含噪語音信號每個時-頻點對應的語音能量占比和語音直達聲能量占比計算公式為:
式中,表示含噪語音信號每個時-頻點對應的語音能量占比,表示含噪語音信號每個時-頻點對應的語音直達聲能量占比,Pd(t,f)是語音直達聲信號的能量,t表示幀序數,f表示頻率,Pr(t,f)是全部語音信號的能量,Pn(t,f)是含噪語音信號的能量,ξn是保證算法的穩定性的小量;
步驟3,利用步驟1獲得的功率譜幅度對數值和步驟2獲得的全部語音能量占比分布圖和語音直達聲能量占比分布圖訓練多任務UNET結構的神經網絡;利用待測信號的功率譜幅度對數值和訓練好的神經網絡估計待測信號的語音直達聲時-頻點分布圖;
所述步驟3中,神經網絡的輸入為功率譜幅度對數值,輸出為語音能量占比和語音直達聲能量占比時-頻點分布圖,其中,語音能量占比為輔助訓練,語音直達聲時-頻點分布圖對應的值作為步驟4中用于定位的時-頻點的選擇依據;
步驟4,利用步驟3估計的語音直達聲時-頻點分布圖作為參考,將語音直達聲占比按大小排列,選擇前Q個語音直達聲占比所對應的時-頻點,結合定位算法得到語音聲源定位結果。
2.根據權利要求1所述基于UNET結構利用傳聲器陣列語音源定位方法,其特征在于:步驟1中含噪語音信號為:
xi(t,f)=gi(f)s(t,f)+ri(t,f)+ni(t,f)
其中,xi(t,f)表示第i個傳聲器在頻率為f時第t幀的含噪語音信號,gi(f)、s(t,f)、ri(t,f)、ni(t,f)分別表示房間傳遞函數、原始干凈語音信號、混響語音信號和噪聲信號,t表示幀序數,f表示頻率。
3.根據權利要求2所述基于UNET結構利用傳聲器陣列語音源定位方法,其特征在于:步驟1中含噪信號的功率譜幅度對數值為:
式中,X(t,f)表示含噪信號的功率譜幅度對數值,ξ'n為本底噪聲功率估計值。
4.根據權利要求3所述基于UNET結構利用傳聲器陣列語音源定位方法,其特征在于:步驟4中語音聲源定位結果:
式中,表示待估計的聲波到達方向,Θ表示聲波到達方向的可能取值,PSRP-PHAT(Θ)表示定位函數,Π表示前Q個語音直達聲占比所對應的時-頻點集合,g(f,Θ)是對應于頻帶f時延Θ的導向向量,||·||2表示二階范數。
5.根據權利要求4所述基于UNET結構利用傳聲器陣列語音源定位方法,其特征在于:如果傳聲器使用均勻線陣列,g(f,Θ)表示為:
式中,exp表示以自然對數e為底的指數,j表示虛度變量,c表示聲速,d是麥克風陣列的間距向量,f是頻率。
6.根據權利要求1所述基于UNET結構利用傳聲器陣列語音源定位方法,其特征在于:傳聲器陣列為線陣列或環陣列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京南大電子智慧型服務機器人研究院有限公司;南京大學;江蘇南大電子信息技術股份有限公司,未經南京南大電子智慧型服務機器人研究院有限公司;南京大學;江蘇南大電子信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011096574.5/1.html,轉載請聲明來源鉆瓜專利網。





