[發明專利]一種基于生成對抗網絡的多屬性語音合成方法在審
| 申請號: | 202211094041.2 | 申請日: | 2022-09-08 |
| 公開(公告)號: | CN116312455A | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 陳香;鄒東升;楊鈺銘;楊智翔;宋心儀;席康 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L15/06;G10L17/04;G10L15/18;G10L19/00 |
| 代理公司: | 重慶立信達知識產權代理有限公司 50286 | 代理人: | 劉竹 |
| 地址: | 400044 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 生成 對抗 網絡 屬性 語音 合成 方法 | ||
1.一種基于生成對抗網絡的多屬性語音合成方法,其特征在于:包括聲碼器中基于GAN的生成器、生成器-編碼器相互作用的循環網絡結構、使用支持向量機訓練多個單一屬性得到多個屬性劃分超平面、多屬性語音編輯及合成方法,還包括以下合成步驟:
S1:訓練一個聲學模型,用于將文本序列轉換成梅爾頻譜序列;
S2:訓練一個聲碼器,用于將梅爾頻譜序列轉換成相應的波形語音,訓練一個基于生成對抗網絡的生成器;
S3:訓練一個編碼器,用于將樣本(語音)轉換成控制其樣式生成的隱碼;
S4:選擇一個需要進行語音編輯的屬性,如聲音的性別(男聲或者女聲)、聲音的情感(高興或者難過)、聲音的年齡(年輕或者年老)等,并給相應的數據集打上相應的二值化標簽;使用編碼器將打上二值化標簽的數據集轉換成相應的隱碼,并對每個屬性使用支持向量機進行二分類,并得到每個屬性劃分二值的超平面;
S5:編輯隱碼的屬性,首先我們先通過S3中的編碼器將目標語音編碼成相應的隱碼,然后再針對S4中的各個屬性對隱碼進行相應的編輯;
S6:使用生成器合成具有相應屬性的語音,將S5過程中編碼后包含特征信息的隱碼結合包含語音內容信息的梅爾頻譜數據使用S2中訓練好的聲碼器得到編輯后的語音。
2.根據權利要求1所述的一種基于生成對抗網絡的多屬性語音合成方法,其特征在于:所述S1過程中選擇的數據集應該具有豐富性和多樣性,如其中既要包括男生的聲音也要包括女生的聲音,既要包括高興的聲音也要包括難過等豐富情感的聲音,這樣才有利于多屬性語音的合成。
3.根據權利要求1所述的一種基于生成對抗網絡的多屬性語音合成方法,其特征在于:所述S2過程的訓練應該采用將生成器和判別器一起進行對抗訓練,生成器(G)和判別器(D)的損失如下所示:
4.根據權利要求1所述的一種基于生成對抗網絡的多屬性語音合成方法,其特征在于:所述S3過程中訓練編碼器時首先用編碼器得到隱碼,然后將隱碼作為生成器的輸入得到生成的樣本(語音),再由梯度下降法進行反向傳播,更新參數,需要注意的是,此處訓練編碼器的時候不需要在更新生成器的參數,只需要更新編碼器的參數就可以,在這個過程中需要實現的結果就是最大化隱碼c和G(z,c)之間的互信息,互信息的定義如下所示,其中H(·)代表熵:
I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)
綜合S2的過程,整個框架模型就是基于一種互信息正則化的對抗訓練:
5.根據權利要求1所述的一種基于生成對抗網絡的多屬性語音合成方法,其特征在于:所述S4過程選擇二值化標簽時一定要選擇區分明顯的數據,并且要保證有足夠的樣本數據使模型能夠充分訓練,找到劃分相應屬性樣本合適的超平面,假設有m個屬性的超平面,每個超平面的單位法向量分別是n1,n2,n3·nm,如果有一個單位法向量n,那么我們定義一個隱碼樣本z到這個超平面的距離是:
d(n,z)=nTz。
6.根據權利要求1所述的一種基于生成對抗網絡的多屬性語音合成方法,其特征在于:所述S5過程中即可以使用單屬性的編輯,又可以使用多屬性的編輯,如果各個屬性的超平面的法向量相互正交,那么我們可以直接采用下面的公式進行隱碼編輯:
zedit=z+an
其中z代表一個隱碼,n是某個屬性超平面的單位法向量,且α既可以是大于零的數也可以是小于零的數,若各個屬性的超平面的法向量不正交,根據隱碼編輯時在子空間中的條件編輯方法,將某個屬性的超平面法向量去掉其它屬性的分量:
7.根據權利要求1所述的一種基于生成對抗網絡的多屬性語音合成方法,其特征在于:所述基于GAN的生成器是為了能合成具有豐富性、多樣性和易于控制生成的語音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211094041.2/1.html,轉載請聲明來源鉆瓜專利網。





