[發明專利]一種基于生成對抗網絡的多屬性語音合成方法在審
| 申請號: | 202211094041.2 | 申請日: | 2022-09-08 |
| 公開(公告)號: | CN116312455A | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 陳香;鄒東升;楊鈺銘;楊智翔;宋心儀;席康 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L15/06;G10L17/04;G10L15/18;G10L19/00 |
| 代理公司: | 重慶立信達知識產權代理有限公司 50286 | 代理人: | 劉竹 |
| 地址: | 400044 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 生成 對抗 網絡 屬性 語音 合成 方法 | ||
本發明涉及人工智能、語音信號處理技術領域,具體為一種基于生成對抗網絡的多屬性語音合成方法,包括聲碼器中基于GAN的生成器、生成器-編碼器相互作用的循環網絡結構、使用支持向量機訓練多個單一屬性得到多個屬性劃分超平面、多屬性語音編輯及合成方法,通過在通用語音合成的基礎框架上,使用了基于GAN生成器的聲碼器,在語音合成的自然度上和多樣性上具有顯著優勢;生成器-編碼器的循環網絡使得生成的語音特征更易于控制;訓練多個單屬性的支持向量機可以定性和定量控制語音的生成,綜合這3項技術,本發明可以在多個屬性上定性和定量的控制語音的合成,在合成語音樣本的豐富性和合成的可控制性上具有獨特而顯著的優勢。
技術領域
本發明涉及人工智能、語音信號處理技術領域,具體為一種基于生成對抗網絡的多屬性語音合成方法。
背景技術
作為人機語音交互的關鍵技術之一,語音合成的應用場景十分廣泛,如語音助手、語音播報、智能音響、有聲讀物、旅游翻譯機、AI智能外呼、AI主播、歌曲合成、地圖導航等,依賴于語音合成的應用日益深入人們的日常生活。隨著商業模式和應用場景的變化,用戶對于合成語音質量提出了更高要求,尤其在語音自然度和個性化語音等方面的需求更為強烈。因此語音合成具有十分重要的理論意義和實踐價值。
隨著深度學習的發展,雖然語音合成的質量和自然度得到了極大的提升,但是在合成個性化、多樣化語音等方面還有著極大的欠缺。
發明內容
針對現有技術的不足,本發明提供了一種基于生成對抗網絡的多屬性語音合成方法,解決了上述背景技術中提出的問題。
為實現以上目的,本發明通過以下技術方案予以實現:一種基于生成對抗網絡的多屬性語音合成方法,包括聲碼器中基于GAN的生成器、生成器-編碼器相互作用的循環網絡結構、使用支持向量機訓練多個單一屬性得到多個屬性劃分超平面、多屬性語音編輯及合成方法,還包括以下合成步驟:
S1:訓練一個聲學模型,用于將文本序列轉換成梅爾頻譜序列;
S2:訓練一個聲碼器,用于將梅爾頻譜序列轉換成相應的波形語音,訓練一個基于生成對抗網絡的生成器;
S3:訓練一個編碼器,用于將樣本(語音)轉換成控制其樣式生成的隱碼;
S4:選擇一個需要進行語音編輯的屬性,如聲音的性別(男聲或者女聲)、聲音的情感(高興或者難過)、聲音的年齡(年輕或者年老)等,并給相應的數據集打上相應的二值化標簽;使用編碼器將打上二值化標簽的數據集轉換成相應的隱碼,并對每個屬性使用支持向量機進行二分類,并得到每個屬性劃分二值的超平面;
S5:編輯隱碼的屬性,首先我們先通過S3中的編碼器將目標語音編碼成相應的隱碼,然后再針對S4中的各個屬性對隱碼進行相應的編輯;
S6:使用生成器合成具有相應屬性的語音,將S5過程中編碼后包含特征信息的隱碼結合包含語音內容信息的梅爾頻譜數據使用S2中訓練好的聲碼器得到編輯后的語音;
優選的,所述S1過程中選擇的數據集應該具有豐富性和多樣性,如其中既要包括男生的聲音也要包括女生的聲音,既要包括高興的聲音也要包括難過等豐富情感的聲音,這樣才有利于多屬性語音的合成。
優選的,所述S2過程的訓練應該采用將生成器和判別器一起進行對抗訓練,生成器(G)和判別器(D)的損失如下所示:
優選的,所述S3過程中訓練編碼器時首先用編碼器得到隱碼,然后將隱碼作為生成器的輸入得到生成的樣本(語音),再由梯度下降法進行反向傳播,更新參數。需要注意的是,此處訓練編碼器的時候不需要在更新生成器的參數,只需要更新編碼器的參數就可以了。我們在這個過程中需要實現的結果就是最大化隱碼c和G(z,c)之間的互信息,互信息的定義如下所示,其中H(·)代表熵:
I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211094041.2/2.html,轉載請聲明來源鉆瓜專利網。





