[發明專利]一種免標注的特定說話人語音合成方法及裝置在審
| 申請號: | 202110160127.X | 申請日: | 2021-02-05 |
| 公開(公告)號: | CN113012678A | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 胡俊鑫;梁欽;段軼;劉均偉;包靜亮 | 申請(專利權)人: | 江蘇金陵科技集團有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L25/24;G10L19/16;G10L25/30 |
| 代理公司: | 南京瑞華騰知識產權代理事務所(普通合伙) 32368 | 代理人: | 邱歡歡 |
| 地址: | 210008*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 標注 特定 說話 人語 合成 方法 裝置 | ||
1.一種免標注的特定說話人語音合成方法,其特征在于,包括:
步驟S1:獲取待處理文本;
步驟S2:通過音素后驗概率預測網絡提取所述待處理文本對應的音素后驗概率特征;
步驟S3:通過mel-spectrogram預測網絡提取所述音素后驗概率特征對應的mel-spectrogram特征;
步驟S4:通過聲碼器模型合成所述mel-spectrogram特征對應的目標說話人語音。
2.根據權利要求1所述的免標注的特定說話人語音合成方法,其特征在于,所述音素后驗概率預測網絡通過以下方式訓練獲得:
提取無關說話人的有標注語音的mel-spectrogram特征;
將所述無關說話人的mel-spectrogram特征輸入到語音識別器,所述語音識別器輸出所述無關說話人的mel-spectrogram特征對應的音素后驗概率特征,所述語音識別器根據已有的語料樣本預先生成;
基于每一條無關說話人的語音數據的標注文本和音素后驗概率特征,對所述音素后驗概率預測網絡進行訓練。
3.根據權利要求1所述的免標注的特定說話人語音合成方法,其特征在于,所述mel-spectrogram預測網絡通過以下方式訓練獲得:
提取目標說話人的無標注語音的mel-spectrogram特征;
將所述目標說話人的mel-spectrogram特征輸入到語音識別器,輸出所述目標說話人的mel-spectrogram特征對應的音素后驗概率特征;
基于每一條目標說話人的無標注語音數據的音素后驗概率特征和mel-spectrogram特征,對所述mel-spectrogram預測網絡進行訓練。
4.根據權利要求1所述的免標注的特定說話人語音合成方法,其特征在于,所述聲碼器模型通過以下方式訓練獲得:
獲取預先生成的通過大量語料訓練的無關說話人的WaveGlow模型;
提取目標說話人的無標注語音的mel-spectrogram特征;
基于每一條目標說話人的無標注語音數據的mel-spectrogram特征和語音,對所述無關說話人的WaveGlow模型進行微調,得到目標說話人聲碼器模型。
5.根據權利要求1所述的免標注的特定說話人語音合成方法,其特征在于,所述音素后驗概率預測網絡基于因子分解時延神經網絡結構,以梅爾頻率倒譜系數特征為輸入,輸出節點是經過狀態樹綁定的三音子狀態,最后一個全連接層輸出的后驗概率便是音素后驗概率特征。
6.根據權利要求1所述的免標注的特定說話人語音合成方法,其特征在于,所述mel-spectrogram預測網絡采用K組一維卷積核進行卷積,第h組卷積核的寬度是h,其中,h=1,2,…,K,接著將各組卷積輸出堆疊起來,在時間軸上進行最大池化,然后把得到的結果序列傳給幾個定長一維卷積,并將卷積的輸出通過冗余連接與原始的輸入相加,然后通過高速公路網絡和雙向門控循環單元充分提取序列的高層信息和上下文信息,最后通過全連接層將這些高層特征連接到輸出層mel-spectrogram,即得到待處理文本對應的mel-spectrogram特征;
當有多個目標說話人時,在mel-spectrogram預測網絡基礎上,將每個說話人都表示為one-hot向量,然后映射為連續的embedding向量;接著采用幾層帶Relu的FC層將embedding向量進行非線性映射,然后在輸入高速公路網絡前與卷積的輸出、原始的輸入相加,即可提取多說話人音素后驗概率特征對應的mel-spectrogram特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇金陵科技集團有限公司,未經江蘇金陵科技集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110160127.X/1.html,轉載請聲明來源鉆瓜專利網。





