[發(fā)明專(zhuān)利]一種基于雙生成器生成對(duì)抗網(wǎng)絡(luò)的語(yǔ)音轉(zhuǎn)換系統(tǒng)研究在審
| 申請(qǐng)?zhí)枺?/td> | 202011435662.3 | 申請(qǐng)日: | 2020-12-10 |
| 公開(kāi)(公告)號(hào): | CN112466317A | 公開(kāi)(公告)日: | 2021-03-09 |
| 發(fā)明(設(shè)計(jì))人: | 魏建國(guó);更太加 | 申請(qǐng)(專(zhuān)利權(quán))人: | 青海民族大學(xué) |
| 主分類(lèi)號(hào): | G10L21/013 | 分類(lèi)號(hào): | G10L21/013;G10L25/30 |
| 代理公司: | 北京華智則銘知識(shí)產(chǎn)權(quán)代理有限公司 11573 | 代理人: | 李樹(shù)祥 |
| 地址: | 810007*** | 國(guó)省代碼: | 青海;63 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 雙生 成器 生成 對(duì)抗 網(wǎng)絡(luò) 語(yǔ)音 轉(zhuǎn)換 系統(tǒng) 研究 | ||
本發(fā)明提供一種基于雙生成器生成對(duì)抗網(wǎng)絡(luò)的語(yǔ)音轉(zhuǎn)換系統(tǒng)研究,涉及一種基于雙生成器生成對(duì)抗網(wǎng)絡(luò)的語(yǔ)音轉(zhuǎn)換系統(tǒng),將生成器一分為二各司其職:根據(jù)不同的任務(wù),允許兩個(gè)生成器使用不同的網(wǎng)絡(luò)結(jié)構(gòu)和不同級(jí)別的參數(shù)共享,通常有助于更好地學(xué)習(xí)多任務(wù)設(shè)置中的每個(gè)特定于任務(wù)的映射,設(shè)計(jì)了具有兩個(gè)生成器的生成對(duì)抗網(wǎng)絡(luò),更加適合語(yǔ)音轉(zhuǎn)換的任務(wù),在非平行語(yǔ)音轉(zhuǎn)換系統(tǒng)中的表現(xiàn)更加穩(wěn)定,避免了轉(zhuǎn)換結(jié)果模糊的問(wèn)題。
技術(shù)領(lǐng)域
本申請(qǐng)涉及網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,尤其涉及一種基于雙生成器生成對(duì)抗網(wǎng)絡(luò)的語(yǔ)音轉(zhuǎn)換系統(tǒng)。
背景技術(shù)
語(yǔ)音轉(zhuǎn)換技術(shù)是一種對(duì)語(yǔ)音信號(hào)進(jìn)行處理的技術(shù),涉及到信號(hào)處理和機(jī)器學(xué)習(xí)相關(guān)領(lǐng)域。語(yǔ)音轉(zhuǎn)換技術(shù)有很多的應(yīng)用場(chǎng)景,本發(fā)明針對(duì)的是語(yǔ)音轉(zhuǎn)換領(lǐng)域中最核心的任務(wù),即在不改變語(yǔ)句內(nèi)容的前提下改變說(shuō)話人的音色,使之聽(tīng)起來(lái)像是另一個(gè)人說(shuō)的。
傳統(tǒng)的語(yǔ)音轉(zhuǎn)換方法專(zhuān)注于基于平行語(yǔ)料的轉(zhuǎn)換,平行語(yǔ)料是指語(yǔ)音轉(zhuǎn)換的源和目標(biāo)說(shuō)話人需要說(shuō)同樣的語(yǔ)句內(nèi)容才可以進(jìn)行模型的訓(xùn)練,這種方法雖然轉(zhuǎn)換的效果還可以接受,但平行數(shù)據(jù)本身是很難獲取的,且獲取到的平行數(shù)據(jù)還需要人工地進(jìn)行時(shí)間對(duì)齊才可以應(yīng)用于語(yǔ)音轉(zhuǎn)換系統(tǒng)的訓(xùn)練過(guò)程中,成本極高。
因此,急需一種基于生成對(duì)抗網(wǎng)絡(luò)來(lái)設(shè)計(jì)語(yǔ)音轉(zhuǎn)換系統(tǒng),基于雙生成器生成對(duì)抗網(wǎng)絡(luò)的語(yǔ)音轉(zhuǎn)換系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于雙生成器生成對(duì)抗網(wǎng)絡(luò)的語(yǔ)音轉(zhuǎn)換系統(tǒng),將生成器一分為二各司其職:根據(jù)不同的任務(wù),允許兩個(gè)生成器使用不同的網(wǎng)絡(luò)結(jié)構(gòu)和不同級(jí)別的參數(shù)共享,通常有助于更好地學(xué)習(xí)多任務(wù)設(shè)置中的每個(gè)特定于任務(wù)的映射。
第一方面,本申請(qǐng)?zhí)峁┮环N基于雙生成器生成對(duì)抗網(wǎng)絡(luò)的語(yǔ)音轉(zhuǎn)換系統(tǒng),所述系統(tǒng)包括:一號(hào)生成器,用于根據(jù)輸入的源語(yǔ)音特征和目標(biāo)說(shuō)話人標(biāo)簽生成轉(zhuǎn)換后的語(yǔ)音特征;二號(hào)生成器,用于根據(jù)一號(hào)生成器生成的轉(zhuǎn)換后的語(yǔ)音特征和源說(shuō)話人的標(biāo)簽重新嘗試重新得到源語(yǔ)音的特征;
判別器,用于根據(jù)輸入的語(yǔ)音特征判斷該語(yǔ)音特征序列是否是真實(shí)語(yǔ)音;
域分類(lèi)器,用于根據(jù)輸入的語(yǔ)音特征和說(shuō)話人標(biāo)簽判斷該語(yǔ)音特征序列屬于對(duì)應(yīng)說(shuō)話人的概率,概率越大代表輸入的語(yǔ)音特征包含越多的目標(biāo)說(shuō)話人特征,轉(zhuǎn)換語(yǔ)音的相似性越好;
所述一號(hào)生成器和判別器、域分類(lèi)器之間構(gòu)成了對(duì)抗訓(xùn)練過(guò)程,生成器用于取得更高的分?jǐn)?shù),分?jǐn)?shù)越高,證明生成的轉(zhuǎn)換語(yǔ)音更加真實(shí),更加符合目標(biāo)說(shuō)話人的特性,判別器用于正確地判斷真實(shí)語(yǔ)音和虛假語(yǔ)音的特征序列,給生成器生成的結(jié)果一個(gè)盡量低的分?jǐn)?shù),域分類(lèi)器用于正確地判斷真實(shí)語(yǔ)音和轉(zhuǎn)換語(yǔ)音屬于對(duì)應(yīng)說(shuō)話人的概率,給生成器生成的結(jié)果一個(gè)盡量低的分?jǐn)?shù)。
結(jié)合第一方面,在第一方面第一種可能的實(shí)現(xiàn)方式中,將真實(shí)語(yǔ)音輸入進(jìn)判別器,使判別器輸出盡量高的分?jǐn)?shù),0為最低,1為最高;將真實(shí)語(yǔ)音和對(duì)應(yīng)的說(shuō)話人標(biāo)簽輸入進(jìn)域分類(lèi)器,使域分類(lèi)器輸出盡量高的概率,概率靠近1;將真實(shí)語(yǔ)音和對(duì)應(yīng)的說(shuō)話人標(biāo)簽輸入進(jìn)一號(hào)生成器,使一號(hào)生成器輸出和原始輸入基本相同的結(jié)果,該步驟中本身不存在轉(zhuǎn)換過(guò)程;將真實(shí)語(yǔ)音和對(duì)應(yīng)的說(shuō)話人標(biāo)簽輸入進(jìn)二號(hào)生成器,使二號(hào)生成器輸出和原始輸入基本相同的結(jié)果,該步驟中本身不存在還原的過(guò)程;將源語(yǔ)音和目標(biāo)說(shuō)話人的標(biāo)簽輸入進(jìn)一號(hào)生成器,一號(hào)生成器輸出的是轉(zhuǎn)換后的音頻特征序列,一號(hào)生成器用于在后續(xù)的判別器和域分類(lèi)器的打分中獲得一個(gè)盡量高的分?jǐn)?shù);將轉(zhuǎn)換后的特征序列輸入進(jìn)判別器,使判別器輸出一個(gè)盡量低的分?jǐn)?shù),判別器用于正確地判斷區(qū)分出真實(shí)語(yǔ)音特征和轉(zhuǎn)換后的語(yǔ)音特征。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于青海民族大學(xué),未經(jīng)青海民族大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011435662.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 4種侵染番茄的雙生病毒的RFLP檢測(cè)方法
- 雙生存儲(chǔ)器單元互連結(jié)構(gòu)
- 檢測(cè)DNA甲基化鑒別同卵雙生子的試劑盒及方法
- 抑制煙粉虱攜帶傳播雙生病毒的藥物、應(yīng)用及控制雙生病毒傳播的方法
- 對(duì)雙生病毒病的防治有效的肽及其利用法
- 使用CRISPR/CAS系統(tǒng)以可選方式進(jìn)行基因驅(qū)動(dòng)在植物中賦予對(duì)雙生病毒的抗性
- 一種擬南芥PEPR2蛋白和AtPep1小肽協(xié)同作用抑制雙生病毒侵染的方法
- 抑制煙粉虱獲取、傳播雙生病毒的藥物及控制雙生病毒傳播的方法
- 雙生存儲(chǔ)器單元互連結(jié)構(gòu)
- C21-孕甾烷及其衍生物在抗植物病毒中的應(yīng)用





