[發明專利]一種基于Cycle-GAN的音頻風格轉換方法及系統在審
| 申請號: | 201911160905.4 | 申請日: | 2019-11-24 |
| 公開(公告)號: | CN112951253A | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 謝裕麟;賈奎;曾錦權;麥濼欣 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G10L19/02 | 分類號: | G10L19/02;G10L19/26;G10L25/48;G10L25/30 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 何淑珍;陳偉斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 cycle gan 音頻 風格 轉換 方法 系統 | ||
1.一種基于Cycle-GAN的音頻風格轉換方法,其特征在于,所述方法包括以下步驟:
S1、通過CQT轉換,獲取音頻的CQT頻譜;
S2、利用Cycle-GAN模型對音頻的CQT頻譜進行風格遷移,得到對應目標領域音色的音頻的CQT頻譜,從而實現音頻CQT頻譜的轉換;
S3、預訓練WaveNet模型,通過使用預訓練的WaveNet生成器,將步驟S2得到的CQT頻譜進行相位的推斷,實現從CQT頻譜到時域音頻的變換,最終實現音頻音色的轉換,獲得目標風格音頻。
2.根據權利要求權1所述的一種基于Cycle-GAN的音頻風格轉換方法,其特征在于,步驟S1獲取音頻的CQT頻譜具體如下:
將音頻的頻率值ωk按以下模式進行幾何分布:
其中k∈{1,2,3,…kmax}表示的是濾波器個數,b是一個決定不同頻帶之間幾何分散的常數,ω0代表初始頻率,kmax表示濾波器個數上限,為了使得不同頻率的濾波器相鄰接,第k個濾波器的帶寬Δk:
式(1)和式(2)得到不變的頻率,計算分辨率比值Q,也稱為質量因素:
使用常數Q變換即CQT變換,根據時域的波形獲得CQT頻譜;
對于CQT變換中的相關參數,使用16ms的幀跳躍,w0取為32.70Hz,對應于鍵盤中最低的C音的頻率,b取48,kmax設置為336,γ在0和1之間,在完成CQT轉換后,對所得結果取對數幅度作為一張拋棄相位信息的圖片。
3.根據權利要求權1所述的一種基于Cycle-GAN的音頻風格轉換方法,其特征在于,步驟S2的Cycle-GAN模型包括兩個生成式對抗網絡(GAN,Generative AdversarialNetworks)、生成器G、生成器F、判別器DX和判別器DY;
利用Cycle-GAN模型對音頻的CQT頻譜進行風格遷移,遷移過程如下:生成器G將X域的圖片x轉換為Y域的風格,而生成器F將Y域的圖片y轉換為X域的風格,生成器G和生成器F應該是互逆的,具體的,X域的圖片經過生成器G轉換為圖片之后,圖片通過生成器F轉換為圖片同樣地,Y域的圖片經過生成器F轉換為圖片之后,圖片通過生成器G轉換為圖片即:
F(G(x))=X;G(F(y))=Y (4)
為了使重構圖片F(G(x))與原圖X一致,重構圖片G(F(y))與原圖Y一致,為此采用L1損失或者L2損失,實現一個循環一致性(Cycle Consistency),使用一個循環一致性損失(Cycle Consistency Loss):
同時訓練兩個GAN:生成器G用于將X域的圖片轉換成Y域風格的圖片判別器DY則分辨的真假,生成器F將Y域的圖片轉換成X域風格的圖片判別器DX則判別的真假,這里的兩個生成網絡被兩個GAN結構共享,同時各自還有一個判別網絡,判別器和生成器損失函數如下所示:
Cycle-GAN模型的損失函數:
L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+Lcyc(G,F)(7)
訓練Cycle-GAN模型的時,在沒有成對訓練數據的情況下,將步驟S1中得到的CQT頻譜從源域遷移到目標域;
Cycle-GAN模型經過訓練后,在生成圖片階段,只需使用一個生成器G或者生成器F,進行一次單向的圖片輸入,則得到對應目標領域風格的圖片,從而實現圖片風格即音頻風格的遷移。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911160905.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種水漆噴涂工藝用噴涂裝置
- 下一篇:一種太陽能路燈





