[發明專利]基于自回歸網絡的非平行語料語音轉換方法及系統有效
| 申請號: | 202011161519.X | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN112331183B | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 連政;溫正棋 | 申請(專利權)人: | 中科極限元(杭州)智能科技股份有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L13/02 |
| 代理公司: | 杭州浙科專利事務所(普通合伙) 33213 | 代理人: | 楊小凡 |
| 地址: | 310016 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 回歸 網絡 平行 語料 語音 轉換 方法 系統 | ||
本發明公開了基于自回歸網絡的非平行語料語音轉換方法及系統,方法包括:S1,音素后延概率抽取,從輸入語音中抽取音素后延概率特征;S2,編碼階段,捕獲音素后延概率特征中的上下文信息,從而獲取融合上下文信息的文本特征表示;S3,利用自適應注意力機制,對當前時刻的文本特征和上一時刻的聲學特征進行融合,獲取增廣的特征表示;S4,解碼階段,基于增廣的特征表示,采用長短時記憶網絡預測目標說話人的聲學特征;S5,語音生成,基于預測的目標說話人的聲學特征,利用聲碼器合成語音;系統包括:音素后延概率抽取模塊、編碼模塊、語音生成模塊,以及一組注意力模塊和解碼模塊。
技術領域
本發明涉及語音轉換領域,尤其是涉及了一種保持輸入語音內容不變但是音色轉換成目標說話人音色的方法及系統。
背景技術
語音轉換旨在修改原說話人的聲音,使得音色接近目標說話人,同時保證轉換后語音內容不變。語音轉換是人工智能領域一個很重要的研究課題,并具有廣泛的應用,例如情感語音轉換、歌唱轉換、個性化轉換等等。
傳統語音轉換技術通常需要平行語料,即原說話人和目標說話人講述相同的內容。基于平行語料的語音轉換框架,首先采用動態時間規整技術,獲取源語音和目標語音聲學特征的映射關系。然后采用轉換模型,將源語音的聲學特征映射到目標語音的聲學特征上。最近,研究者提出基于序列到序列模型(seq2seq)的平行語料的語音轉換框架,與傳統方法相比,這種方法可以達到更好的自然度和說話人相似度。然而,也存在著發音錯誤和訓練不穩定等問題。
當平行語料不可獲取時,也有研究者提出基于非平行語料的語音轉換框架。變分自編碼器已成功應用于非平行語料的語音轉換任務,但是變分自編碼器轉換得到的語音存在“過平滑”的問題。為了解決這個問題,研究者提出基于生成對抗網絡的平行語料的語音轉換框架,采用判別器減少轉換語音和真實語音之間的差異。但是,這種方法較難訓練,而且判別器學習到的區分能力可能和人的聽感存在差異,從而降低轉換語音的音質。最近,基于音素后延概率的非平行語料的語音轉換框架得到了廣泛應用。該語音轉換框架主要包括兩部分內容:轉換模型和聲碼器。轉換模型將音素后延概率轉換為目標說話人的聲學特征。聲碼器使用這些轉換后的特征來合成語音波形。但是,在實際測試過程中,我們發現存在波形軌跡不平滑的問題,從而導致一些發音錯誤的情況。
發明內容
為解決現有技術的不足,實現提高轉換語音的音質和說話人相似性的目的,本發明采用如下的技術方案:
基于自回歸網絡的非平行語料語音轉換方法,包括如下步驟:
S1,音素后延概率抽取,利用預先訓練好的說話人無關的語音識別模型,從輸入語音中抽取音素后延概率特征,作為文本特征表示;
S2,編碼階段,利用卷積神經網絡和門控循環單元,捕獲音素后延概率特征中的上下文信息,從而獲取融合上下文信息的文本特征表示;提升了轉換后語音的自然度和說話人相似度;
S3,利用自適應注意力機制,對當前時刻的文本特征和上一時刻的聲學特征進行融合,獲取增廣的特征表示;使得生成波形軌跡更加平滑,同時減少了發音錯誤的情況;
S4,解碼階段,基于增廣的特征表示,采用長短時記憶網絡預測目標說話人的聲學特征;
S5,語音生成,基于預測的目標說話人的聲學特征,利用聲碼器合成語音。
所述步驟S1,首先基于大規模語料,訓練一套說話人無關的語音識別系統,然后將待測語音輸入到語音識別系統中,獲取音素后延概率,作為其文本特征表示。
所述步驟S2,包括如下步驟:
S21,將從語音中抽取的音素后延概率特征標記為X=[x1,x2,…,xN],其中xi表示語音中第i幀的音素后延概率;
S22,將X輸入到多層感知機中進行特征變換:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科極限元(杭州)智能科技股份有限公司,未經中科極限元(杭州)智能科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011161519.X/2.html,轉載請聲明來源鉆瓜專利網。





