[發明專利]一種基于聲紋比對和生成對抗網絡的語音增強方法有效
| 申請號: | 201811353760.5 | 申請日: | 2018-11-14 |
| 公開(公告)號: | CN109326302B | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 鐘艷如;張家豪;趙帥杰;李芳;藍如師;羅笑南 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/0264;G10L17/00 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 楊雪梅 |
| 地址: | 541004 廣*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聲紋 生成 對抗 網絡 語音 增強 方法 | ||
1.一種基于聲紋比對和生成對抗網絡的語音增強方法,其特征在于,包括如下步驟:
1)建立三個語音數據庫,分別對應聲紋識別編碼器、噪聲分離系統和語音分離系統;
2)訓練聲紋識別編碼器提取目標說話者的聲紋特征,得到目標聲紋特征;
3)將帶噪的音頻轉化成語譜圖送入噪聲分離系統中的生成器中,生成器根據聲紋識別編碼器提取的目標聲紋特征分離出目標說話者的聲音,得到預測干凈音頻;
4)將步驟3)得到的預測干凈音頻和步驟1)語音分離系統中真實干凈音頻送入噪聲分離系統中的鑒別器進行訓練,使鑒別器分辨出說話者的聲音通過噪聲分離系統所生成的預測語譜圖是否符合真實音頻的分布;
5)調整鑒別器權重參數,使鑒別器更好地分辨出真實干凈音頻和生成器產生的預測干凈音頻的區別,根據鑒別器區分結果更新生成器的權重參數,直至鑒別器分辨不出生成器產生的預測音頻和真實的干凈音頻的區別,得到可以產生近乎真實的干凈音頻的生成器;
6)通過傳聲器收集說話者的聲音,經短時傅里葉變換轉化成語譜圖送入已經訓練好的生成器中,生成預測干凈語譜圖,再通過反短時傅里葉變換轉化成語音模擬信號,語音模擬信號經揚聲器播放出來,即得到增強的語音信號。
2.根據權利要求1所述的一種基于聲紋比對和生成對抗網絡的語音增強方法,其特征在于,所述的聲紋識別編碼器為2000 NISI Speaker Recongnition Evaluation語音庫的聲紋識別編碼器;所述的噪聲分離系統為100-nonspeech噪音庫的噪聲分離系統;所述的語音分離系統為TIMIT語音庫的語音分離系統。
3.根據權利要求1所述的一種基于聲紋比對和生成對抗網絡的語音增強方法,其特征在于,步驟2)中,所述的聲紋識別編碼器提取目標說話人的聲紋特征,具體是:將音頻信號轉換為寬度為25ms和步長為10ms的幀,經過mel濾波器對每幀進行濾波,并且從結果中提取尺寸為40的能量譜作為網絡輸入,在這些幀上構建固定長度的滑動窗口,并在每個窗口上運行長短期記憶網絡,然后將長短期記憶網絡最后幀輸出作為該滑動窗口的聲紋特征d-vector表示。
4.根據權利要求1所述的一種基于聲紋比對和生成對抗網絡的語音增強方法,其特征在于,所述的生成器,是由一個8層的卷積網絡、一個1層的長短期記憶循環網絡和一個2層的全連接網絡組成,每層都用Relu激活函數,最后一層全連接網絡使用sigmoid激活函數,輸入信號的語譜圖經過卷積層后,參考音頻的聲紋特征d-vector會被逐幀拼接到卷積層的輸出上,一同輸入長短期記憶層,最終,網絡的輸出是一段與輸入語譜圖維度相同的掩碼mask,將輸出掩碼與輸入語譜圖相乘,即可得到輸出音頻的預測干凈音頻譜圖
5.根據權利要求1所述的一種基于聲紋比對和生成對抗網絡的語音增強方法,其特征在于,所述的鑒別器,是由一個2層的卷積網絡和一個2層的全連接神經網絡組成,每層都用Relu激活函數,最后一層全連接網絡使用sigmoid激活函數,生成器將生成的預測干凈音頻譜圖送入鑒別器,再將步驟1)中真實干凈音頻X送入鑒別器,訓練鑒別器神經網絡,鑒別器對生成器產生的預測干凈音頻譜圖判定為虛假數據給予低分,對步驟1)中真實干凈音頻X判定為真實數據給予高分,以此學習真實數據和預測數據的分布,使鑒別器分辨出步驟6)中說話者的聲音通過噪聲分離系統所生成的預測語譜圖是否符合真實音頻的分布。
6.根據權利要求1所述的一種基于聲紋比對和生成對抗網絡的語音增強方法,其特征在于,所述的調整鑒別器權重參數,具體是將真實虛假的消息傳遞給生成器,生成器調整網絡模型的參數,修正其輸出的語譜圖,使其更接近于真實的分布,消除被鑒別器判定為虛假的噪音信號,即使生成器產生的預測干凈語譜圖可以“騙過”鑒別器,鑒別器判定生成器產生的預測干凈語譜圖是從TIMIT語音庫中得到的真實干凈音頻的語譜圖X,在神經網絡反向傳播的過程中,鑒別器能夠更好地分辨出真實干凈音頻和生成器產生的預測干凈音頻的區別,也就是更好地找到真實干凈音頻的特征;同樣的,生成器也會隨著不斷更新的鑒別器,調整其參數,使其產生的預測語譜圖向著真實干凈音頻語譜圖移動。
7.根據權利要求1所述的一種基于聲紋比對和生成對抗網絡的語音增強方法,其特征在于,所述的生成器、鑒別器,相互博弈,相互對抗,生成對抗網絡算法,算法公式如下:
為解決經典方法面臨梯度消失的問題,采用最小二乘生成對抗網絡the least-squares GAN代替交叉熵損失the cross-entropy loss,則:
上述公式中,G表示生成器Generator,D表示鑒別器Discriminator,V代表損失值,data表示步驟1)語音分離系統中真實干凈音頻的語音庫,x表示data中抽取出的真實干凈語音音頻,noise表示步驟1)語音分離系統中的帶噪音頻語音庫,n表示從noise中抽取與x對應的帶噪音頻,G(n)表示生成器對帶噪語音進行去噪處理,得到預測干凈音頻D(G(n))表示鑒別器對預測干凈音頻進行判定為虛假數給予低分,對真實干凈音頻X判定為真實數據給予高分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811353760.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種進行信號處理的方法及設備
- 下一篇:一種語音分離方法及系統





