[發明專利]一種語音增強方法、系統及設備在審
| 申請號: | 201911383843.3 | 申請日: | 2019-12-28 |
| 公開(公告)號: | CN111145772A | 公開(公告)日: | 2020-05-12 |
| 發明(設計)人: | 許敏強;楊世清;吳建花;張享 | 申請(專利權)人: | 廣州國音智能科技有限公司 |
| 主分類號: | G10L21/0216 | 分類號: | G10L21/0216;G10L25/30;G10L25/18;G10L25/21;G10L25/24 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王兆林 |
| 地址: | 510000 廣東省廣州市黃埔*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 增強 方法 系統 設備 | ||
本申請公開了一種語音增強方法、系統及設備,包括:獲取帶噪語音樣本;提取帶噪語音樣本的特征;將特征輸入到訓練好的深度神經網絡中,根據帶噪語音及干凈語音的映射關系提取出帶噪語音樣本對應的第一干凈語音。本申請通過神經網絡具有的非線性映射能力,使得面向語音增強的深度神經網絡能夠直接學習含噪語音和純凈語音之間的非線性關系,從而根據非線性關系將含噪語音提取出純凈語音。
技術領域
本申請涉及語音增強技術領域,尤其涉及一種語音增強方法、系統及設備。
背景技術
語音增強是指當語音信號被各種各樣的噪音干擾、甚至遮擋后,從噪音背景中提取出有用的純凈語音,抑制、降低噪聲對語音的干擾的技術。語音增強在語音信號處理流程中處于前端位置,在語音處理領域中發揮著十分重要的作用。語音增強的目的是盡可能去除含噪語音中的噪聲,得到純凈的語音,提高語音質量,增強語音可懂度。深度神經網絡具有非線性映射能力,使得面向語音增強的深度神經網絡能夠直接學習含噪語音和純凈語音之間的非線性關系,無需對信號模型進行額外的假設,因此可以被應用到更復雜的語音增強場景中。
發明內容
本申請實施例提供了一種語音增強方法、系統及設備,使得能夠從含噪語音中提取出純凈語音。
有鑒于此,本申請第一方面提供了一種語音增強方法,所述方法包括:
獲取帶噪語音樣本;
提取所述帶噪語音樣本的特征;
將所述特征輸入到訓練好的深度神經網絡中,根據帶噪語音及干凈語音的映射關系提取出所述帶噪語音樣本對應的第一干凈語音。
可選的,在將所述特征輸入到訓練好的深度神經網絡中,根據帶噪語音及干凈語音的映射關系輸出所述帶噪語音對應的第一干凈語音之后還包括:
提取所述帶噪語音樣本的相位特征;
將所述相位特征與所述第一干凈語音進行相位合成,得到第二干凈語音,所述第一干凈語音中缺少相位特征。
可選的,提取訓練樣本的特征,并將訓練樣本的所述特征輸入到深度神經網絡中;得到所述帶噪語音與干凈語音之間的映射關系;所述訓練樣本包括帶噪語音訓練樣本以及干凈語音訓練樣本。
可選的,還包括:使用所述帶噪語音訓練樣本指導所述干凈語音訓練樣本,得到包含有所述帶噪語音訓練樣本帶噪特征的帶噪語音。
可選的,所述特征包括語音對數頻譜特征、對數功率譜特征以及倒譜特征。
本申請第二方面提供一種語音增強系統,所述系統包括:
樣本獲取模塊,所述樣本獲取模塊用于獲取帶噪語音樣本;
特征提取模塊,所述特征提取模塊用于提取所述帶噪語音樣本的特征;
語音增強模塊,所述語音增強模塊用于將所述特征輸入到訓練好的深度神經網絡中,根據帶噪語音及干凈語音的映射關系提取出所述帶噪語音樣本對應的第一干凈語音。
可選的,還包括:
相位合成模塊,所述相位合成模塊用于提取所述帶噪語音樣本的相位特征;并將所述相位特征與所述第一干凈語音進行相位合成,得到第二干凈語音,所述第一干凈語音中缺少相位特征。
可選的,還包括:
模型訓練模塊,所述模型訓練模塊用于提取訓練樣本的特征,并將訓練樣本的所述特征輸入到深度神經網絡中;得到所述帶噪語音與干凈語音之間的映射關系;所述訓練樣本包括帶噪語音訓練樣本以及干凈語音訓練樣本。
可選的,還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州國音智能科技有限公司,未經廣州國音智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911383843.3/2.html,轉載請聲明來源鉆瓜專利網。





