[發明專利]一種相位相關的共享深度卷積神經網絡語音增強方法在審
| 申請號: | 201911310216.7 | 申請日: | 2019-12-18 |
| 公開(公告)號: | CN111081268A | 公開(公告)日: | 2020-04-28 |
| 發明(設計)人: | 王曰海;李斌;李東洋;胡冰 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G10L21/0224 | 分類號: | G10L21/0224;G10L21/0232;G10L21/0264;G10L25/30 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 相位 相關 共享 深度 卷積 神經網絡 語音 增強 方法 | ||
本發明公開了一種相位相關的共享深度卷積神經網絡語音增強方法,包括,利用短時傅里葉變換對帶噪語音數據和干凈語音數據進行時頻域分析,分別得到帶噪和干凈語音數據的雙通道時頻譜特征,并作為訓練樣本;搭建共享深度卷積神經網絡;利用訓練樣本訓練所述共享深度卷積神經網絡;針對待增強的帶噪語音數據,獲得帶噪語音數據的雙通道時頻譜特征并輸入至共享深度卷積神經模型中,經計算輸出預測的雙通道時頻譜特征,利用短時傅里葉逆變換、重疊相加法對增強的雙通道時頻譜特征進行處理得到增強語音信號。本發明提供了一種相位相關的共享深度卷積神經網絡語音增強方法,能有效抑制語音信號中的噪聲干擾,增強語音信號的質量。
技術領域
本發明涉及數字語音信號處理領域,具體涉及一種相位相關的共享深度卷積神經網絡語音增強方法。
背景技術
語言是人類交流的最重要的方式之一,通過語音進行交流讓人類的生活變得簡單、高效;隨著移動通信技術、互聯網技術的發展,語音技術應用在通話、智能音箱、語音識別、智能安防等各個領域,由于環境噪聲對語音產生的破環作用,使得語音技術在一些產品上的應用表現不佳,因此,語音增強成為了提升語音質量和可懂度,解決實際環境中產品性能問題的重要一步。
語音增強技術在19世紀就已經受到人們的廣泛關注,并且提出了很多解決方案,因此,語音增強相關的技術可分為傳統方法和基于深度模型的方法,傳統的降噪方法如譜減法、維納濾波法對穩態噪聲有很好的降噪性能,對我們的實際生活中的非穩態噪聲降噪效果差,而基于深度學習的語音增強算法相對于傳統的方法有著較為明顯的提升。
但是,一方面,深度降噪得到的語音損傷較為嚴重;另一方面,很多深度的方法因為相位譜沒有明顯的結構信息,很難通過訓練的方法進行學習,很多解決方法都是通過訓練幅度譜、功率譜,然后直接利用帶噪聲的語音相位作為預測出來幅度譜的相位;主流的神經網絡,擴增數據、增加網絡層數能夠提升網絡的整體泛化性能,采用共享網絡的方式能夠將結果數據作為擴充數據,在網絡層數方面,加層不加量,能夠對網絡做更為細致的訓練。
申請公開號為CN 109360581 A公開了一種基于神經網絡的語音增強方法、計算機可讀存儲介質及終端設備,所述方法首先使用短時傅里葉變換對加噪語音進行時頻域分析,得到所述加噪語音的時頻域分析結果,分別計算所述時頻域分析結果的相位及幅值,然后使用預設的神經網絡模型對所述時頻域分析結果的幅值進行增強處理,得到增強后的幅值,最后使用短時傅里葉逆變換對所述時頻域分析結果的相位及增強后的幅值進行處理,得到增強后的語音。
申請公開號為CN 103971697 A公開了一種基于非局部均值濾波的語音增強方法,主要解決現有技術在語音增強后易產生音樂噪聲的問題。其實現步驟是:(1)輸入帶噪語音,計算帶噪語音信號功率譜;(2)對帶噪語音信號功率譜進行修改譜減法預處理,得到帶噪語音估計功率譜;(3)由估計功率譜得到估計頻譜,再對估計頻譜進行短時傅立葉逆變換,得到預處理后語音;(4)對預處理后語音進行非局部均值濾波,計算語音修正值;(5)使用計算出來的修正值替代原始含噪語音信號。
但是,當前的基于深度學習的方法大多都是設計網絡模型,在時頻譜域進行處理,使用幅度譜、功率譜作為訓練數據,直接一站式降噪,忽略了對降噪結果的驗證以及語音相位信息;最近的很多研究表明,相位對于恢復語音信號起著至關重要的作用,尤其是在環境噪聲較為嚴重、信噪比較低的情況下相位信息的不準確對于降噪效果有極大的影響。
發明內容
本發明提供了一種相位相關的共享深度卷積神經網絡語音增強方法,能有效抑制語音信號中的噪聲干擾,增強語音信號的質量。
一種相位相關的共享深度卷積神經網絡語音增強方法,包括:
步驟1,利用短時傅里葉變換對帶噪語音數據和干凈語音數據進行時頻域分析,分別得到帶噪語音數據和干凈語音數據的包含實部譜與虛部譜的雙通道時頻譜特征,以帶噪語音數據的雙通道時頻譜特征作為輸入,以干凈語音數據的雙通道時頻譜特征作為監督標簽,構建訓練樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911310216.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種牧草收割機械
- 下一篇:一種帶有平衡輪胎的大型旋耕機





