[發明專利]一種基于人工智能的語音增強方法在審
| 申請號: | 202010551206.9 | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN111833893A | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 王亞東 | 申請(專利權)人: | 杭州云嘉云計算有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L15/20 |
| 代理公司: | 杭州杭誠專利事務所有限公司 33109 | 代理人: | 尉偉敏 |
| 地址: | 311100 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 人工智能 語音 增強 方法 | ||
1.一種基于人工智能的語音增強方法,其特征在于,包括以下步驟:
S1:訓練數據預處理;提取音頻數據的時域序列,對音頻數據進行切片處理;
S2:模型訓練和部署;建立GAN算法模型,根據音頻數據模擬進行對抗式訓練;將訓練完成的GAN算法模型部署到機器的服務器中;
S3:模型測試;對測試數據中的帶噪音頻進行切片處理,在訓練完成的GAN算法模型中進行數據除噪與音頻重構,完成音頻的語音增強;
S4:模型評估優化;采用多種方式對語音增強后的音頻質量進行評估。
2.根據權利要求1所述的一種基于人工智能的語音增強方法,其特征在于,所述的GAN算法模型包括生成器G和判別器D;
生成器G模擬輸入的真實音頻數據分布的有效映射,生成與訓練數據相關的新樣本;
判別器D為二元分類器,判別器D的輸入包括生成器G正在模擬的真實音頻數據和生成器G模擬生成的新樣本。
3.根據權利要求2所述的一種基于人工智能的語音增強方法,其特征在于,所述的對抗式訓練為生成器G與判別器D的極大極小博弈,極大極小博弈的目標函數為:
其中,E()為損失函數;V()為目標函數;X為干凈樣本,X∈Pdata(X);Z為帶噪樣本,Z∈PZ(Z);為對生成器G損失函數進行最小化;為對判別器D損失函數進行最大化。
4.根據權利要求3所述的一種基于人工智能的語音增強方法,其特征在于,在所述的極大極小博弈的目標函數中增加約束條件變量,引導生成器G的生成過程和判別器D的判別過程,加入約束條件變量的目標函數為:
其中,y為約束條件變量。
5.根據權利要求2所述的一種基于人工智能的語音增強方法,其特征在于,所述的步驟S3包括以下步驟:
S31:測試數據預處理;對于測試數據中的帶噪音頻按照GAN算法模型的輸入尺寸進行切片處理;
S32:數據去噪;將帶噪音頻切片輸入訓練完成的GAN算法模型,通過生成器G對其進行編碼、解碼,完成新樣本的映射;
S33:音頻重構;對于同一個帶噪音頻的切片,在全部經過生成器G的重構后,按原切分順序進行拼接,得到和帶噪音頻采樣點數一樣的重構音頻。
6.根據權利要求1所述的一種基于人工智能的語音增強方法,其特征在于,所述的訓練完成的模型能夠部署到機器的服務器中,或者通過移動介質進行移動。
7.根據權利要求1或6所述的一種基于人工智能的語音增強方法,其特征在于,對于所述訓練完成的模型,根據部署環境的不同,利用部署環境的噪聲數據對模型進行微調。
8.根據權利要求1或5所述的一種基于人工智能的語音增強方法,其特征在于,對于所述的訓練數據中的音頻數據運用滑動步長為16384*0.5,大小為16384*1的滑動窗口進行采樣切片,不足部分補0;對于所述的測試數據中的帶噪音頻采用滑動步長為16384*1,大小為16384*1的滑動窗口進行采樣切片,不足部分補0。
9.根據權利要求1所述的一種基于人工智能的語音增強方法,其特征在于,步驟S3中所述的多種方式包括語音識別引擎、人工聽判和PESQ三種方式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州云嘉云計算有限公司,未經杭州云嘉云計算有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010551206.9/1.html,轉載請聲明來源鉆瓜專利網。





