[發明專利]基于DenseNet STARGAN的多對多說話人轉換方法在審
| 申請號: | 202010179723.8 | 申請日: | 2020-03-16 |
| 公開(公告)號: | CN111833855A | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 李燕萍;袁昌龍;徐玲俐 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08;G10L15/16;G10L15/18;G10L15/06 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 劉文聞 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 densenet stargan 說話 轉換 方法 | ||
本發明公開了一種基于DenseNet STARGAN的多對多說話人轉換方法,采用STARGAN與DenseNet相結合來實現語音轉換系統,并將GELU激活函數引入STARGAN中。一方面利用DenseNet來解決訓練過程中網絡退化問題,有助于訓練過程中梯度的反向傳播,提升深層網絡訓練效率,另一方面,使用GELU激活函數替換掉常規使用的ReLU激活函數,具有更強的非線性表示能力,有效解決了ReLU在負區間處于失活狀態的缺點,進一步緩解了訓練過程中網絡退化的問題,增強了STARGAN模型的表征能力,很好地改善了轉換后語音的個性相似度和語音質量,實現了一種高質量的多說話人到多說話人的語音轉換方法,在跨語種語音轉換、電影配音、語音翻譯等領域有良好的應用前景。
技術領域
本發明涉及一種多對多說話人轉換方法,特別是涉及一種基于DenseNet STARGAN的多對多說話人轉換方法。
背景技術
語音轉換是語音信號處理領域的重要研究分支,是在語音分析、合成和說話人識別的研究基礎上發展與延伸的。語音轉換的目標是改變源說話人的語音個性特征,使之具有目標說話人的語音個性特征,同時保留語義信息,也就是使源說話人的語音經過轉換后聽起來像是目標說話人的語音。
語音轉換的最初階段主要是平行文本下的語音轉換,平行文本要求源說話人和目標說話人需要發出語音內容、語音時長相同的句子,并且發音節奏和情緒等盡量一致,但是收集這些數據很耗時并且即使獲得這些平行數據,仍然很難解決問題,因為大多數語音轉換方法依賴數據準確的時間對齊,而對齊過程不可避免會引入誤差,所以訓練時要求平行文本會成為語音轉換應用的嚴重制約。此外在同聲傳譯、醫療輔助患者語音轉換等實際應用中也無法獲取平行語音。因此,無論從語音轉換系統的通用性還是實用性來考慮,非平行文本條件下的語音轉換方法的研究具有極大的實際意義和應用價值。
現有的非平行文本條件下的語音轉換方法有基于循環一致對抗網絡(Cycle-Consistent Adversarial Networks,Cycle-GAN)的方法,基于條件變分自編碼器(Conditional Variational Auto-Encoder,C-VAE)的方法以及基于Disco-GAN(Discovercross-domain relations with Generative Adversarial Networks)的方法等。基于Disco-GAN模型的語音轉換方法,采用兩個生成器與三個判別器進行計算損失,較傳統GAN而言,通過增加一個風格判別器提取語音個性特征來提高語音質量,但其只能實現一對一的語音轉換。基于C-VAE模型的語音轉換方法,直接利用說話人的身份標簽建立語音轉換系統,其中編碼器對語音實現語義和個性信息的分離,解碼器通過語義和說話人身份標簽來實現語音的重構,從而可以解除對平行文本的依賴,但是由于C-VAE基于理想假設,認為觀察到的數據通常遵循高斯分布,導致解碼器的輸出語音過度平滑,轉換后的語音質量不高。基于Cycle-GAN模型的語音轉換方法利用對抗性損失和循環一致損失,同時學習聲學特征的正映射和逆映射,可以有效解決過平滑問題,改善轉換語音質量,但是Cycle-GAN只能實現一對一的語音轉換,即源說話人與目標說話人之間的轉換,無法實現多說話人之間的互相轉換。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010179723.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:牙體檢查床云端輔助系統
- 下一篇:半導體存儲器模塊





