[發明專利]一種利用傳聲器陣列的語音聲源定位方法有效
| 申請號: | 201911069273.0 | 申請日: | 2019-11-05 |
| 公開(公告)號: | CN110838303B | 公開(公告)日: | 2022-02-08 |
| 發明(設計)人: | 王浩;盧晶 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30;G10L25/51;G01S5/18 |
| 代理公司: | 江蘇法德東恒律師事務所 32305 | 代理人: | 李媛媛 |
| 地址: | 210046 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 傳聲器 陣列 語音 聲源 定位 方法 | ||
本發明公開了一種利用傳聲器陣列的語音聲源定位方法,步驟如下:(1)生成訓練樣本,得到時?頻域信號,并獲得功率包絡;(2)對時?頻域信號的每個時?頻點,判斷是否為語音直達聲信號;(3)利用步驟(1)生成的樣本訓練UNET結構的神經網絡;(4)利用已訓練的UNET結構的神經網絡預測待測含噪信號語音直達聲對應的時?頻點;(5)對判斷為語音直達聲的時?頻點,應用定位方法,得到定位結果。本發明的語音聲源定位方法,能夠使得在高混響及高干擾的環境中,有效去除干擾和混響的影響,獲得精確度和魯棒性較高的結果。
技術領域
本發明涉及一種基于UNET結構、在高干擾及高混響環境下使用傳聲器陣列的語音聲源定位方法,屬于語音信號處理的技術領域。
背景技術
語音信號聲源定位(Speech Source Localization,SSL)目的是估計語音信號到達傳聲器陣列時的角度(Direction-of-Arrival,DOA)。使用一個傳聲器陣列對語音信號進行聲源定位,或者說DOA估計,在聲信號處理中是一個非常重要也是非常熱點的話題。它在很多應用場景中對聲音的捕捉有非常重要的作用,比如智能設備的人機語音交互、鏡頭追蹤以及智能監控。但是,存在的困難之處在于語音信號是一個寬帶的非平穩隨機過程,同時還存在本底噪聲、混響和其他干擾聲源。
經典的聲源定位的方法可分為TDOA(Time Delay Of Arrival)、SRP(SteeredResponse Power)和Spatial Spectrum三大類;基于數據驅動的方法主要是利用卷積神經網絡直接獲取DOA結果。在大量的實際應用場景中,不僅存在混響,還存在噪聲干擾,目前絕大多數方法都無法在這樣的復雜環境保持很高的準確性和魯棒性。
發明內容
為了克服現有技術中存在的不足,本發明提供一種利用傳聲器陣列的語音聲源定位方法,該方法在高混響及高干擾的環境中,依然可以獲得精確度和魯棒性較高的結果。
為實現上述目的,本發明采用的技術方案為:
一種利用傳聲器陣列的語音聲源定位方法,包括以下步驟:
步驟1,利用傳聲器陣列采集語音信號和干擾信號,獲得含噪語音信號和干凈語音信號的時-頻域信號,并計算含噪語音信號和干凈語音信號的功率譜幅度對數值;所述干凈語音信號為僅由語音直達聲構成的信號;
步驟2,對含噪語音信號和干凈語音信號時-頻域中所有的時-頻點,分別計算各自的空間功率響應譜,并進一步估計時-頻點對應的時延,記和分別是含噪語音信號和干凈語音信號對應于時間n和頻帶k的時-頻窗時延估計值;獲得語音直達聲對應的時-頻點分布圖;
步驟3,利用步驟1的含噪語音信號和干凈語音信號的功率譜幅度對數值和步驟2的語音直達聲對應的時-頻點分布圖訓練UNET結構的神經網絡;利用待測信號的功率譜幅度對數值和已訓練的神經網絡估計待測信號的語音直達聲對應的時-頻點分布圖;
步驟4,利用步驟3估計的語音直達聲分布作為權重,結合加權定位算法得到語音聲源定位結果。
進一步地,所述步驟2中,選取直達聲對應的時-頻分布點需同時滿足以下條件:
1)在含噪語音信號中,時延估計值與真實時延τ=(dsinθ)/c相差小于閾值TH1的時-頻窗,d、c、θ分別是傳聲器間距、聲速、語音源到達陣列的角度;
2)在干凈語音信號中,時延估計值與真實時延τ相差小于閾值TH1的時-頻窗;
3)含噪語音信號和干凈語音信號相同位置空間功率譜響應相關性大于閾值TH2的時-頻窗。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911069273.0/2.html,轉載請聲明來源鉆瓜專利網。





