[發明專利]基于Soft-argmax回歸器的雙耳聲源定位方法有效
| 申請號: | 202010872003.X | 申請日: | 2020-08-26 |
| 公開(公告)號: | CN111948609B | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 周琳;王天儀;馮坤;許越;馬康宇 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G01S5/22 | 分類號: | G01S5/22;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 李悅聲 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 soft argmax 回歸 聲源 定位 方法 | ||
1.一種基于Soft-argmax回歸器的雙耳聲源定位方法,其特征在于步驟如下:
(1)收集不同方位角、不同混響時間、不同信噪比下的雙耳聲信號;
(2)雙耳聲信號先后進行子帶濾波、分幀和加窗,從而得到各個子帶分幀后的雙耳聲信號;
(3)計算每一幀子帶分幀后的雙耳聲信號的耳間特征參數,將耳間特征參數進行融合,從而形成耳間二維特征參數矩陣X(τ),將X(τ)與第τ幀的聲源真實方位角θ(τ)組成訓練樣本(X(τ),θ(τ));
(4)利用訓練雙耳聲信號的二維特征參數訓練Soft-argmax回歸器,訓練過程具體包括:
(4-2)首先隨機初始化Soft-argmax回歸器所有卷積層和全連接層的權值;
(4-2)然后向Soft-argmax回歸器輸入訓練樣本(X(τ),θ(τ)),X(τ)為第τ幀的耳間二維特征參數矩陣,作為Soft-argmax回歸器的輸入;θ(τ)為第τ幀的聲源真實方位角,作為Soft-argmax回歸器的輸入X(τ)對應的預期輸出;
(4-3)根據前向傳播算法,依次計算每層網絡的實際輸出值,直到計算出Soft-argmax的實際輸出值θpred;
(4-4)計算當前訓練特征參數的代價函數,定義如下:
LMAE(θ(τ),θpred)=|θ(τ)-θpred|
(4-5)使用反向傳播算法,計算代價函數LMAE對網絡權重的偏導,并修正權重;
(4-6)若當前迭代次數未達到預設總迭代次數,則返回至步驟(4-2),繼續輸入下一個訓練樣本進行計算,直至得到達到預設迭代次數時迭代結束,Soft-argmax回歸器訓練結束;
(5)利用訓練的Soft-argmax回歸器對測試雙耳聲信號對應的融合二維空間特征參數進行運算,確定輸入的雙耳聲信號的方位;
具體步驟如下:
a利用公式:獲取不同方位角、不同混響時間、不同信噪比下的雙耳聲信號,將獲取到的雙耳聲信號生成訓練樣本集,式中,xL(m)、xR(m)分別表示加入混響和噪聲后的左、右耳聲信號,s(m)為單聲道源信號,hL(m)、hR(m)為不同混響時間對應的雙耳房間沖激響應函數,vL(m)、vR(m)表示指定信噪比下的左、右耳白噪聲信號,m表示樣本點序號,*為卷積運算;
b對雙耳聲信號訓練樣本集進行子帶濾波、分幀、加窗,得到各個子帶分幀后的訓練雙耳聲信號樣本集,其中子帶濾波器為:或者任何實現聲信號的子帶濾波功能的濾波器,式中,xL(i,m)、xR(i,m)分別為濾波后的第i個子帶的左耳聲信號、右耳聲信號;
c計算子帶分幀雙耳聲信號的耳間特征參數互相關函數和耳間強度差,并將耳間特征參數進行融合組成一維的特征向量,然后將每一幀中每個子帶的一維特征向量,根據子帶順序,融合組成二維特征參數矩陣X(τ),二維特征參數集X(τ)的維數為K×(2L+2),其中K為子帶個數,L為最大延遲采樣點數;
d利用訓練雙耳聲信號的二維特征參數訓練Soft-argmax回歸器,訓練過程具體為:
d1初始化Soft-argmax回歸器中的卷積層以及全連接層的權值,Soft-argmax回歸器包括輸入層、卷積層、若干密集連接塊和轉換層、全局池化層、全連接層、輸出層,具體依次包含1個輸入層,1個卷積層,3個密集連接塊和2個轉換層,1個池化層,1個全連接層和1個Soft-argmax輸出層;
d2輸入訓練樣本(X(τ),θ(τ)),其中X(τ)是步驟三獲得的特征參數矩陣;θ(τ)表示Soft-argmax回歸器在第τ幀的預期輸出,即聲源的真實方位角;
d3根據前向傳播算法,依次計算Soft-argmax回歸器每層網絡的實際輸出值,直到計算出Soft-argmax回歸器的輸出代價函數θpred;
d4當前訓練特征參數的代價函數LMAE定義為:LMAE(θ(τ),θpred)=|θ(τ)-θpred|;
d5用反向傳播算法,計算代價函數LMAE對網絡權重的偏導,并修正權重;
d6判斷當前迭代次數是否小于預設總迭代次數,若小于則返回至步驟d2繼續向Soft-argmax回歸器輸入訓練樣本(X(τ),θ(τ))中的數據進行計算,直至得到達到預設迭代次數時迭代結束,結束訓練Soft-argmax回歸器,獲得訓練完成的Soft-argmax回歸器;
e利用訓練完成的Soft-argmax回歸器對測試雙耳聲信號對應的融合二維空間特征參數進行運算,得到Soft-argmax回歸器輸出神經元的輸出值,該輸出值即為預測得到的目標聲源的方位角;
所述計算子帶分幀雙耳聲信號的耳間特征參數,并將耳間特征參數進行融合,從而形成二維特征參數的步驟具體包括:
首先利用公式:計算子帶每一幀雙耳聲信號的互相關函數CCF;式中,CCF(i,τ,d)表示第i個子帶、第τ幀的雙耳聲信號對應的互相關函數,d為延遲采樣點數,xL(i,τ,m)、xR(i,τ,m)分別表示子帶濾波、分幀、加窗后第i個子帶、第τ幀的左、右耳聲信號,m表示樣本點序號,L為最大延遲采樣點數;
然后利用公式:計算子帶每一幀雙耳聲信號的耳間強度差IID,式中,IID(i,τ)表示第i個子帶、第τ幀的耳間強度差;
最后利用公式:C(i,τ)=[CCF(i,τ,-L),CCF(i,τ,-L+1),...,CCF(i,τ,L),IID(i,τ)]將第i個子帶、第τ幀的CCF和IID參數組成一維特征向量C(i,τ);
二維特征參數訓練Soft-argmax回歸器的輸入層輸入特征參數矩陣X(τ),Soft-argmax回歸器的卷積層后為若干個密集連接塊和轉換層依次排列,密集連接塊中包含卷積和dropout操作,轉換層中包含卷積和池化操作,最后一個密集連接塊后為全局池化層,全連接層將上一層的輸出轉化為一維向量,通過Soft-argmax轉化為回歸預測數值,對應方位角線性映射的標簽得到真實方位角;真實方位角回歸預測值θpred的計算公式為:
式中,表示全連接層的輸出經Softmax激活后的向量中第j點的值,uj表示全連接層的輸出向量中第j點的值,β是改變向量分布的參數,wj為權值,P為的方位角個數,表示βuj的指數函數;
wj的計算公式為:
式中,θmin表示可能方位角的最小值,θmax表示可能方位角的最大值,P為的方位角個數。
2.根據權利要求1所述的基于Soft-argmax回歸器的雙耳聲源定位方法,其特征在于:計算子帶分幀雙耳聲信號的耳間特征參數,并將耳間特征參數進行融合,從而形成二維特征參數的步驟包括:將每一幀中每個子帶的一維特征向量,根據子帶順序,融合組成一個二維向量,其計算過程為:
式中,X(τ)表示第τ幀雙耳聲信號的二維特征參數向量,K為子帶個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010872003.X/1.html,轉載請聲明來源鉆瓜專利網。





