[發明專利]一種基于深度學習的多語音源計數和定位方法有效
| 申請號: | 202110379637.6 | 申請日: | 2021-04-08 |
| 公開(公告)號: | CN113111765B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 潘翔;張敏 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F18/2431 | 分類號: | G06F18/2431;G06F18/2415;G06F18/213;G06F18/15;G06N3/0464;G06N3/047;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 劉靜 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 語音 計數 定位 方法 | ||
1.一種基于深度學習的多語音源計數和定位方法,其特征在于,包括以下步驟:
步驟1:構造室內混響環境下含有多個語音源的訓練數據,即根據房間沖激響應模型構造麥克風陣列接收到的聲源信號;
步驟2:提取語音信號特征,即提取相位變換加權的廣義互相關系數和對數梅爾譜;
步驟3:訓練神經網絡,對聲源個數估計和到達角DOA估計做多任務學習訓練;具體為:將提取的特征輸入到深度神經網絡進行訓練;輸入特征GCC-PHAT和特征LogMel先分別經過各自的卷積神經網絡模塊,將經過卷積神經網絡模塊后的特征拼接起來成為新特征再輸入到門控循環單元GRU,最后分為兩路輸出;一路輸出通過全連接層FC1和激活函數SoftMax后得到聲源個數估計的預測值其中全連接層的神經元個數為N1;另一路輸出通過全連接層FC2和激活函數Sigmoid后得到DOA預測值其中全連接層的神經元個數為N2;
聲源個數估計問題作為多分類模型求解,每個個數取值作為一個類別,采用交叉熵作為損失函數,計算公式如下:
其中p(xn)表示屬于第n個類別的真實概率,表示預測屬于第n個類別的概率;
DOA估計問題作為回歸模型求解,使用高斯函數設計DOA標簽,計算公式如下:
其中y(i)代表θi角度的標簽值,K代表聲源個數,代表第j個聲源的真實角度值,θi代表麥克風陣列可以有效估計的到達角范圍內的任意角度值,σ是控制高斯函數的參數;
DOA估計問題采用均方誤差作為損失函數,計算公式如下:
其中表示角度值為θn時的預測值;
聲源個數估計和DOA估計以多任務學習模型的方式進行訓練,整個深度神經網絡模型的損失函數計算公式如下:
J=αJ1+J2
其中α是一個常量系數,范圍大小0<α≤1;在最小化損失函數的準則下進行迭代訓練,最終得到訓練好的網絡模型;
步驟4:輸出聲源個數估計值和DOA估計值,具體如下:對麥克風陣列接收到的聲源信號進行特征提取,將提取的特征輸入到步驟3訓練得到的網絡模型,得到聲源個數預測值和DOA預測值
的最大值對應的類別即為聲源個數估計值
對進行峰值檢測,前個最大峰值出現的位置即為DOA估計值。
2.根據權利要求1所述的一種基于深度學習的多語音源計數和定位方法,其特征在于,所述步驟1構造室內混響環境下含有多個語音源的訓練數據,具體步驟如下:
麥克風陣列接收到的聲源信號可以表示為干凈語音與房間沖激響應的卷積:
其中X=[x1,x2,...,xm,...,xM]表示M個通道的麥克風陣列接收到的聲源信號矩陣,K表示聲源個數,si表示第i個語音信號,表示卷積操作,表示第i個語音信號與第m個通道的麥克風之間的房間沖激響應,根據像源法計算得到,N=[n1,n2,...,nM]表示環境噪聲。
3.根據權利要求1所述的一種基于深度學習的多語音源計數和定位方法,其特征在于,所述步驟2具體包括以下子步驟:
步驟21,對信號X進行短時傅里葉變換得到Y,計算任意兩個麥克風信號Yi,Yj之間的互功率譜,引入相位變換加權函數,對互功率譜進行調整,再進行逆傅里葉變換得到相位變換加權的廣義互相關系數GCC-PHAT,計算公式如下所示:
其中Ri,j(τ)表示第i個和第j個麥克風之間的廣義互相關系數,Yi(ω)表示第i個麥克風接收到信號的頻譜,(·)*表示共軛操作;
步驟22,用梅爾濾波器對Y的能量譜進行濾波得到梅爾譜,做對數運算得到對數梅爾譜:
其中f代表梅爾濾波器索引,Melf(k)代表第f個梅爾濾波器,Ωf代表第f個梅爾濾波器的頻率范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110379637.6/1.html,轉載請聲明來源鉆瓜專利網。





