[發明專利]基于半監督特征學習的語音轉換方法在審
| 申請號: | 202111277502.5 | 申請日: | 2021-10-30 |
| 公開(公告)號: | CN114023343A | 公開(公告)日: | 2022-02-08 |
| 發明(設計)人: | 李學龍;張強;陳穆林 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G10L21/007 | 分類號: | G10L21/007;G10L15/06 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 常威威 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 特征 學習 語音 轉換 方法 | ||
本發明提供了一種基于半監督特征學習的語音轉換方法。首先,利用開源語音包librosa對訓練集中的語音數據進行預處理,得到擴展的聲學特征段集合,并采用廣義端到端損失編碼器預先提取得到表示說話人身份信息的聲學特征;然后,構建語音轉換網絡,包括變分自編碼器、解碼器和后置網絡,并利用構建的數據集合對網絡進行訓練,其中,網絡損失設置采用監督信息下的均方誤差約束;最后,利用訓練好的網絡對待轉換的源語音數據和目標語音數據進行處理,得到轉換后的語音數據。本發明以變分自編碼器結構為基礎,引入半監督特征學習,能夠準確提取到說話人身份信息,解決了在非并行語料數據下多說話人之間的語音轉換問題,具有很好的泛化能力。
技術領域
本發明屬深度學習領域,具體涉及一種基于半監督特征學習的語音轉換方法。
背景技術
語音轉換方法旨在實現將源說話人的音色轉化為目標說話人的音色,同時保持源說話人的語言內容不變。語音轉換系統最通用的做法是:僅提供一條目標說話人語音數據和一條源說話人語音數據,系統自動從源說話人數據提取語言內容,從目標說話人數據提取說話人嵌入(即說話人音色信息),將這兩種信息重新結合生成新的目標語音。在語音轉換中,如果數據來自于不同說話人,且語言內容不同,則這種數據屬于非平行語料數據。因其成本低、易獲取、貼近真實應用場景等特性,非平行語料數據在語音轉換中得到廣泛應用。目前,在非平行語料數據中,由于轉換的目標說話人與源說話人之間語言內容不同,需要保持語言內容不變的同時,將源說話人音色轉換為目標說話人的音色。因此利用非并行語料數據做轉換時會面臨兩個挑戰:首先,若在非并行語料數據集上建立模型,很難準確學習從源說話人到目標說話人的映射,導致語音轉換效果不佳的問題;其次,對于多說話人之間的語音轉換,如果參加測試的說話人語音數據從未出現在訓練數據集中,則轉換出的語音效果無論在自然度還是相似度方面都偏低。以上兩點成為非并行語音轉換亟待解決的問題。
為準確學習源說話人與目標說話人之間的映射關系,Takuhiro等人在文獻“T.Kaneko and H.Kameoka,CycleGAN-VC:Non-parallel Voice Conversion UsingCycle-Consistent Adversarial Networks,European Signal Processing Conference(EUSIPCO),pp.2100-2104,2018.”中首次將CycleGAN(循環生成對抗網絡)方法引入語音轉換任務。循環生成對抗網絡解決了源域與目標域難以映射的問題。該方法以對抗損失和循環一致性損失為準則,實現從源說話人到目標說話人的音色轉換。
為實現任意說話人之間的語音轉換,Chou等人在文獻“Ju-chieh Chou,Cheng-chieh Yeh,and Hung-yi Lee,One-Shot Voice Conversion by Separating Speaker andContent Representations with Instance Normalization,in Proc.Interspeech,pp.664-668,2019.”中提出利用變自分編碼器進行語音轉換的方法。這種方法以均方誤差為準則,利用變分自編碼器結構,在輸入端利用兩個編碼器通過無監督學習分別提取語音中的語言內容和說話人嵌入,并在輸出端使用一個解碼器,將語言內容和說話人嵌入進行結合,從而生成新的語音,即目標說話人語音。由于編碼器通過訓練學習到了分離語言內容與說話人嵌入信息的能力,若給定目標說話人語音數據與源說話人語音數據,內容編碼器便可自動的從源說話人語音中提取語言內容表示,說話人編碼器自動從目標語音中提取說話人嵌入表示,在解碼器端,語言內容表示和說話人嵌入表示被結合為新的語音數據。這種方法可以擴展到多說話人之間的語音轉換。
上述兩種方法解決了非并行語音轉換存在的部分問題,但仍存在局限性。第一種方法雖然可以準確地學習從源說話人到目標說話人的映射,但是通常只能做兩個說話人之間的語音轉換,且訓練過程復雜,容易出現梯度驟降為零的情況,無法拓展到多說話人之間的語音轉換。第二種方法,盡管變分自編碼器結構簡單易于實現,但是其提取出的語言內容表示會包含少量說話人嵌入信息,最終導致語音轉換的結果相似度不佳。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111277502.5/2.html,轉載請聲明來源鉆瓜專利網。





