[發明專利]一種深度堆疊殘差網絡的語音分離方法有效
| 申請號: | 201910345455.X | 申請日: | 2019-04-26 |
| 公開(公告)號: | CN110120227B | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 張濤;朱誠誠 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L25/24;G10L25/27;G10L21/0208 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 杜文茹 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 深度 堆疊 網絡 語音 分離 方法 | ||
一種深度堆疊殘差網絡的語音分離方法,包括:語音信號數據集的制作;語音信號的特征提取,包括分別提取語音信號每一幀的:梅爾倒譜系數、Amplitude Modulation Spectrogram、Gammatone特征、Relative Spectral Transform?Perceptual Linear Prediction和短時傅里葉變換幅度譜;深度堆疊殘差網絡的搭建;學習標簽的制作;損失函數的制作;深度堆疊殘差網絡模型的訓練。本發明分離出來的語音可以得到更高的語音質量和可懂度,尤其在低信噪比的聲學的環境下。本發明在模型訓練階段不需要很多次的迭代就可以得到一個比較魯棒的分離模型,而且模型的泛化能力特別強,對于未匹配的噪聲環境也能有很好的性能表現。
技術領域
本發明涉及一種語音分離方法。特別是涉及一種深度堆疊殘差網絡的語音分離方法。
背景技術
在現實生活中,人們所聽到的聲音幾乎都是多種聲音的組合體。語音信號往往會被各種噪聲信號所干擾。語音分離技術旨在從被干擾的信號中分離出人們感興趣的目標信號,從而提升語音的質量和可懂度。人耳聽覺系統可以自動識別目標信號,即使在雞尾酒會這種嘈雜的環境下,人耳也能輕易地識別出其中一個人的說話內容。所以語音分離通常被稱為“雞尾酒會問題”,這個術語是Cherry于1953年在他的論文中提出來的。采集的音頻信號中除了主說話人之外,還有其他人說話聲的干擾和噪音干擾。語音分離的目標就是從這些干擾中分離出主說話人的語音。根據干擾的不同,語音分離任務可以分為三類:當干擾為噪聲信號時,可以稱為“語音增強”(Speech Enhancement);當干擾為其他說話人時,可以稱為“多說話人分離”(Speaker Separation);當干擾為目標說話人自己聲音的反射波時,可以稱為“解混響”(De-reverberation),由于麥克風采集到的聲音中可能包括噪聲、其他人說話的聲音、混響等干擾,不做語音分離、直接進行識別的話,會影響到識別的準確率。因此在語音識別的前端加上語音分離技術,把目標說話人的聲音和其它干擾分開就可以提高語音識別系統的魯棒性,這從而也成為現代語音識別系統中不可或缺的一環.
迄今為止在針對語音分離領域已經有許多方法產生。在早期該領域專家提出了譜減法(Spectral Subtraction)、維納濾波法(Wiener Filtering)和最小均方誤差(MinimumMean Squared Error,MMSE)等。對于譜減法,譜減法是處理寬帶噪聲的最通用技術。它利用語音信號的短時平穩特性,從帶噪語音的短時譜值中減去噪聲的短時譜,從而得到純凈語音的頻譜達到語音增強得目的。譜減法包括兩種方法:幅度譜減法和功率譜減法。幅度譜減法就是在頻域中從帶噪語音的幅度譜上減去噪聲的幅度譜作為語音信號的幅度譜;功率譜減法通過從帶噪語音的功率譜中減去噪聲的功率譜,得到純凈語音的功率譜估計,通過開方運算得到幅度譜。維納濾波法是一種最小均方誤差意義下的最優濾波器,維納濾波法要求輸入過程廣義平穩且統計特性已知。早期提出的方法對環境都有特殊要求,要求噪聲平穩的環境,否則對分離效果影響很大,由其在低信噪比的情況下效果特別差。但是在真實的環境中,大部分環境都是非平穩噪聲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910345455.X/2.html,轉載請聲明來源鉆瓜專利網。





