[發明專利]一種使用神經網絡的零樣本語音轉換語料預處理方法有效
| 申請號: | 202011433778.3 | 申請日: | 2020-12-10 |
| 公開(公告)號: | CN112562686B | 公開(公告)日: | 2022-07-15 |
| 發明(設計)人: | 魏建國;更太加 | 申請(專利權)人: | 青海民族大學 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L17/04;G10L25/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京華智則銘知識產權代理有限公司 11573 | 代理人: | 李樹祥 |
| 地址: | 810007*** | 國省代碼: | 青海;63 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 使用 神經網絡 樣本 語音 轉換 語料 預處理 方法 | ||
1.一種使用神經網絡的零樣本語音轉換語料預處理方法,其特征在于,所述方法包括:
使用了神經網絡的生成器,對未在訓練集中的說話人的身份編碼向量進行預處理,使用256維的向量來表示說話人的音色個性化特征,對應說話人的身份標簽;
通過編碼器將語音信息中的說話人相關信息和說話人無關信息分離出來,提取出來的說話人相關信息是32維或者64維;
該生成器由7層神經網絡構成,前三層是卷積核大小為5的一維卷積層,在每一次卷積操作后進行批標準化步驟,并通過激活函數ReLU對輸出進行激活,卷積神經網絡輸出的維數是512;接下來的三層是循環神經網絡LSTM,在三層LSTM網絡全部結束后選取最后一次輸出的最后一列輸出作為LSTM網絡的最終輸出,維數為768;最后一層神經網絡是一個全連接層FullConnect,它重新將輸出的維數限制在256位,最終得到預處理后的說話人身份編碼;
該生成器是獨立于語音轉換模型單獨進行訓練的,使其根據輸入的說話人身份編碼向量輸出一個靠近該說話人身份編碼向量但又不完全一致的結果,對于生成器的輸出,則為越靠近語音轉換模型訓練時使用的對應說話人的身份編碼向量越好;
對說話人身份編碼進行基于神經網絡的預處理,使用說話人身份編碼器提取語料中的說話人身份編碼向量,將提取出的向量和使用內容編碼器提取出的內容編碼一起輸入到生成器中,生成器得到調整之后的說話人身份編碼向量,將從生成器中得到的結果作為該說話人的最終身份編碼向量,即作為該說話人的身份標簽輸入到解碼器中,解碼器生成轉換后的音頻特征序列。
2.根據權利要求1所述的方法,其特征在于:該生成器的最終訓練目標如下:
SnA=Es(XnA)
代表原始語音的音頻特征,代表說話人身份編碼器,SnA代表得到的初始說話人身份編碼向量;
S′A=G(SnA)
G代表本發明所述的生成器,S′A代表經過調整之后的說話人身份編碼向量,也就是生成器的對應輸出結果;
Ladjust代表生成器訓練時的損失函數,通過使生成器的輸出與語音轉換模型中使用的眾多說話人身份編碼向量的平均值SA的差距達到最小,對生成器進行訓練。
3.根據權利要求1-2之一所述的方法,其特征在于:生成對抗網絡是由一個生成器和一個判別器組成,二者根據給定的目標函數在對抗過程中不斷優化迭代,最終得到一個模型。
4.一種使用神經網絡的零樣本語音轉換語料預處理系統,其特征在于,所述系統包括處理器以及存儲器:所述存儲器用于存儲程序代碼,并將所述程序代碼傳輸給所述處理器;
所述處理器用于根據所述程序代碼中的指令執行權利要求1-3任一項所述的方法步驟。
5.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質用于存儲程序代碼,所述程序代碼用于執行權利要求1-3任一項所述的方法步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青海民族大學,未經青海民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011433778.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種工業腳踏墊防滑紋制作裝置
- 下一篇:一種天然片狀微波吸收劑及其生產工藝





