[發明專利]一種基于雙生成器生成對抗網絡的語音轉換系統研究在審

申請號：	202011435662.3	申請日：	2020-12-10
公開（公告）號：	CN112466317A	公開（公告）日：	2021-03-09
發明（設計）人：	魏建國;更太加	申請（專利權）人：	青海民族大學
主分類號：	G10L21/013	分類號：	G10L21/013;G10L25/30
代理公司：	北京華智則銘知識產權代理有限公司 11573	代理人：	李樹祥
地址：	810007***	國省代碼：	青海;63
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于雙生成器生成對抗網絡語音轉換系統研究
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于雙生成器生成對抗網絡的語音轉換系統，其特征在于，所述系統包括：一號生成器，用于根據輸入的源語音特征和目標說話人標簽生成轉換后的語音特征；二號生成器，用于根據一號生成器生成的轉換后的語音特征和源說話人的標簽重新嘗試重新得到源語音的特征；

判別器，用于根據輸入的語音特征判斷該語音特征序列是否是真實語音；

域分類器，用于根據輸入的語音特征和說話人標簽判斷該語音特征序列屬于對應說話人的概率，概率越大代表輸入的語音特征包含越多的目標說話人特征，轉換語音的相似性越好；

所述一號生成器和判別器、域分類器之間構成了對抗訓練過程，生成器用于取得更高的分數，分數越高，證明生成的轉換語音更加真實，更加符合目標說話人的特性，判別器用于正確地判斷真實語音和虛假語音的特征序列，給生成器生成的結果一個盡量低的分數，域分類器用于正確地判斷真實語音和轉換語音屬于對應說話人的概率，給生成器生成的結果一個盡量低的分數。

2.根據權利要求1所述的系統，其特征在于：將真實語音輸入進判別器，使判別器輸出盡量高的分數，0為最低，1為最高；將真實語音和對應的說話人標簽輸入進域分類器，使域分類器輸出盡量高的概率，概率靠近1；將真實語音和對應的說話人標簽輸入進一號生成器，使一號生成器輸出和原始輸入基本相同的結果，該步驟中本身不存在轉換過程；將真實語音和對應的說話人標簽輸入進二號生成器，使二號生成器輸出和原始輸入基本相同的結果，該步驟中本身不存在還原的過程；將源語音和目標說話人的標簽輸入進一號生成器，一號生成器輸出的是轉換后的音頻特征序列，一號生成器用于在后續的判別器和域分類器的打分中獲得一個盡量高的分數；將轉換后的特征序列輸入進判別器，使判別器輸出一個盡量低的分數，判別器用于正確地判斷區分出真實語音特征和轉換后的語音特征。

3.根據權利要求1-2任一項所述的系統，其特征在于：將轉換后的特征序列和源說話人的標簽輸入進二號生成器，二號生成器用于根據輸入的信息重新還原源語音的特征序列，幫助生成器在轉換過程中減少信息的損失，避免生成器生成單一的真實語音以欺騙判別器和域分類器。

4.根據權利要求1-3任一項所述的系統，其特征在于：生成對抗網絡是由一個生成器和一個判別器組成，二者根據給定的目標函數在對抗過程中不斷優化迭代，最終得到一個模型。

5.一種基于雙生成器生成對抗網絡的語音轉換系統，其特征在于，所述系統包括處理器以及存儲器：

所述存儲器用于存儲程序代碼，并將所述程序代碼傳輸給所述處理器；

所述處理器用于根據所述程序代碼中的指令執行權利要求1-4任一項所述的一號生成器、二號生成器、判別器和域分類器的功能。

6.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質用于存儲程序代碼，所述程序代碼用于執行權利要求1-4任一項所述的一號生成器、二號生成器、判別器和域分類器的功能。

7.一種包括指令的計算機程序產品，其特征在于，當其在計算機上運行時，使得所述計算機執行權利要求1-4任一項所述的一號生成器、二號生成器、判別器和域分類器的功能。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于青海民族大學，未經青海民族大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011435662.3/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種有機肥發酵工藝
下一篇：基于區塊鏈和機器學習的跨系統數據共享方法

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L21-00 為了改變語音信號的質量或其可識度而處理語音信號，以產生另一種可聽的或非可聽的信號，例如視覺信號或觸覺信號
G10L21-02 .語音增強，例如降低噪聲或消除回聲
G10L21-04 .時間壓縮或擴展
G10L21-06 .將語音轉換成非可聽表達形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】