[發明專利]一種深度堆疊殘差網絡的語音分離方法有效
| 申請號: | 201910345455.X | 申請日: | 2019-04-26 |
| 公開(公告)號: | CN110120227B | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 張濤;朱誠誠 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L25/24;G10L25/27;G10L21/0208 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 杜文茹 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 深度 堆疊 網絡 語音 分離 方法 | ||
1.一種深度堆疊殘差網絡的語音分離方法,其特征在于,包括如下步驟:
1)語音信號數據集的制作;
2)語音信號的特征提取,包括分別提取語音信號每一幀的:
梅爾倒譜系數、Amplitude Modulation Spectrogram、Gammatone特征、RelativeSpectral Transform-Perceptual Linear Prediction和短時傅里葉變換幅度譜;
3):深度堆疊殘差網絡的搭建
深度堆疊殘差網絡框架是由卷積通道、第一全連接通道和第二全連接通道構成,其中,所述的卷積通道是由7個卷積殘差模塊(a)組成,所述的第一全連接通道是由3個第一全連接殘差模塊(b)組成,所述第二全連接通道是由3個第二全連接殘差模塊(c)組成,所述的卷積通道和第一全連接通道輸出經過級聯輸入到第二全連接通道;
4)學習標簽的制作
采用如下理想浮值掩蔽IRM(m,f)公式制作學習目標:
其中S(m,f)2和N(m,f)2分別表示時間幀為m和頻率為f時T-F單元內的語音能量和噪聲能量;
5)損失函數的制作
所述的損失函數的制作采用如下的損失函數cost的表達式:
其中L2(w)表示深度堆疊殘差網絡最后一層權值的二范數,表示深度堆疊殘差網絡的預測值,yn表示學習目標的真實值;
6)深度堆疊殘差網絡模型的訓練
深度堆疊殘差網絡的輸入分為兩部分,輸入的一部分為特征集,包含梅爾倒譜系數、Amplitude Modulation Spectrogram、Gammatone特征和Relative Spectral Transform-Perceptual Linear Prediction四種特征;輸入的另一部分為語音信號當前幀以及相鄰四幀的短時傅里葉變換幅度譜。
2.根據權利要求1所述的一種深度堆疊殘差網絡的語音分離方法,其特征在于,步驟1)是從TIMIT純凈語音庫隨機抽取1500段語音,每個語音都來自不同的語音文件,將1500段語音與從NOISEX-92數據庫選取的15種噪聲隨機混合,得到語音信號的數據集。
3.根據權利要求1所述的一種深度堆疊殘差網絡的語音分離方法,其特征在于,步驟2)所述的提取梅爾倒譜系數,是對采樣率為16KHz的語音信號采用20ms幀長的漢明窗和10ms的幀移對語音信號進行分幀的512點短時傅里葉變換,得到語音信號的功率譜,將功率譜轉換到梅爾域,再經過對數運算和離散傅里葉變換,得到31維的梅爾倒譜系數。
4.根據權利要求1所述的一種深度堆疊殘差網絡的語音分離方法,其特征在于,步驟2)所述的提取Amplitude Modulation Spectrogram,是通過全波整流提取語音信號的包絡,對所述的包絡進行四分之一抽樣,對抽樣后得到的語音信號使用漢明窗進行加窗處理,采用32ms的幀長和10ms幀移對加窗處理后的信號進行短時傅里葉變換,得到抽樣后的語音信號的幅度譜,最后利用15個中心頻率均勻分布在15.6到400HZ的三角窗對所述抽樣后的語音信號的幅度譜濾波,得到15維的Amplitude Modulation Spectrogram。
5.根據權利要求1所述的一種深度堆疊殘差網絡的語音分離方法,其特征在于,步驟2)所述的提取Gammatone特征,是使用64通道的gammatone濾波器組分解語音信號,對每一個分解出的語音信號,使用100HZ的采樣率進行采樣,分別得到10毫秒幀偏移的語音信號,將所有偏移的語音信號的幅度通過立方根運算得到放大壓縮后的64維的Gammatone特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910345455.X/1.html,轉載請聲明來源鉆瓜專利網。





