[發(fā)明專利]一種基于CycleGAN的語音識別模型的防御方法及裝置有效
| 申請?zhí)枺?/td> | 202010433039.8 | 申請日: | 2020-05-20 |
| 公開(公告)號: | CN111627429B | 公開(公告)日: | 2022-10-14 |
| 發(fā)明(設(shè)計)人: | 陳晉音;葉林輝 | 申請(專利權(quán))人: | 浙江工業(yè)大學(xué) |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L21/0208;G10L15/20 |
| 代理公司: | 杭州天勤知識產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 cyclegan 語音 識別 模型 防御 方法 裝置 | ||
1.一種基于CycleGAN的語音識別模型的防御方法,其特征在于,包括如下步驟:
S1生成用于CycleGAN模型訓(xùn)練的數(shù)據(jù)集,所述的數(shù)據(jù)集包括對抗樣本數(shù)據(jù)集和正常語音數(shù)據(jù)集,將所述數(shù)據(jù)集劃分為訓(xùn)練集和測試集;
其中,對抗樣本數(shù)據(jù)集由以下步驟生成:
S11初始化遺傳算法的損失函數(shù)如式(1)所示:
L=lctc(x,t) (1);
其中,lctc表示CTC損失函數(shù)用于衡量對抗樣本經(jīng)語音識別模型轉(zhuǎn)錄的結(jié)果與目標短語的相近程度,x表示迭代過程中的最優(yōu)樣本,t表示設(shè)置的目標短語;設(shè)定種群大小設(shè)為100,精英數(shù)量為10,迭代次數(shù)為3000;
S12通過復(fù)制原始樣本將樣本數(shù)量擴大至設(shè)定的種群大小,給個體添加隨機噪聲進行變異,在變異后,攻擊語音識別模型,根據(jù)公式(1)選擇損失函數(shù)較小的10個樣本作為精英群體,根據(jù)公式(1),從精英群體中挑選100次,組成父輩1,再挑選100次組成父輩2;
S13通過從父輩1和父輩2中各取一半的樣本進行交叉變異來生成子代,根據(jù)公式(1)選擇最優(yōu)樣本;
S14判斷迭代次數(shù)是否達到3000或最優(yōu)樣本的轉(zhuǎn)錄結(jié)果是否為目標短語,若是,則該樣本就為對抗樣本數(shù)據(jù)集,若否,將該最優(yōu)樣本作為下一次迭代的原始樣本,回到步驟S12;
S2搭建CycleGAN模型,所述的CycleGAN模型由兩GAN模型以對偶的形式構(gòu)成;
其中,生成器GA~B和生成器GB~A的結(jié)構(gòu)相同,均由12個卷積塊組成,依次為1個門控卷積塊,2個實例歸一化門控卷積塊,6個殘差卷積塊,2個pixel shuffed后的實例歸一化門控卷積塊以及1個卷積層;判別器DA和判別器DB的結(jié)構(gòu)相同,均由6個卷積塊組成,依次為1個門控卷積塊,3個實例歸一化門控卷積塊,1個全連接層和1個sigmoid函數(shù);
一組GAN模型將對抗樣本傳遞給生成器GA~B濾除噪音,由判別器DB判別是否為正常語音,然后將濾除噪音后的語音傳遞給生成器GB~A添加噪音;
另一組GAN模型將正常語音傳遞給生成器GB~A添加噪音,由判別器DA判別是否為對抗樣本,然后將添加噪音后的語音傳遞給生成器GA~B濾除噪音;
S3構(gòu)建CycleGAN模型的損失函數(shù)LcycleGAN;所述損失函數(shù)LcycleGAN由Ladv、Lcyc和Lid組成,如式(2)所示,
LcycleGAN=ladv+λlcyc+λidlid (2);
其中,所述λ和λid為縮放因子,ladv為對抗性損失函數(shù),lcyc為循環(huán)一致?lián)p失函數(shù),lid為身份映射損失函數(shù);
其中,ladv計算公式如式(3)所示,
其中,所述lAadv為GA~B與DB構(gòu)成的對抗網(wǎng)絡(luò)的對抗性損失函數(shù),lBadv為GB~A與DA構(gòu)成的對抗網(wǎng)絡(luò)的對抗性損失函數(shù);a為對抗樣本數(shù)據(jù)集中的語音,b為正常語音數(shù)據(jù)集中的語音;DA()為判斷輸入是否為對抗樣本的判別器,DB()為輸入是否為正常語音的判別器;GB~A()為添加噪音的生成器,GA~B()為濾除噪音的生成器,E表示期望;
Lcyc計算公式如式(4)所示,
lcyc=lAcyc+lBcyc
=Ea||GB~A(GA~B(a))-a||1+Eb||GA~B(GB~A(b))-b||1 (4);
其中,所述lAcyc為GA~B與GB~A構(gòu)成的對抗網(wǎng)絡(luò)的循環(huán)一致?lián)p失函數(shù),lBcyc為GB~A與GA~B構(gòu)成的對抗網(wǎng)絡(luò)的循環(huán)一致?lián)p失函數(shù);‖‖1表示l1范數(shù);
Lid計算公式如式(5)所示,
lid=Ea||GB~A(a)-a||1+Eb||GA~B(b)-b||1 (5)
S4利用訓(xùn)練集對CycleGAN模型中的判別器DB和判別器DA進行預(yù)訓(xùn)練,使兩個判別器有初步判別語音是否為對抗樣本和正常語音的能力;
S5利用訓(xùn)練集對CycleGAN模型進行訓(xùn)練,訓(xùn)練完成后,用測試集進行測試,統(tǒng)計經(jīng)過CycleGAN模型處理后的對抗樣本的失效率,若失效率達不到預(yù)設(shè)標準,則更改CycleGAN模型參數(shù)繼續(xù)訓(xùn)練模型,直到失效率達到預(yù)設(shè)標準;
S6將失效率達到預(yù)設(shè)標準的CycleGAN模型中的生成器GA~B集成到語音識別模型中,以抵御對抗樣本的攻擊。
2.一種基于CycleGAN的語音識別模型的防御裝置,包括計算機存儲器、計算機處理器以及存儲在所述計算機存儲器中并可在所述計算機處理器上執(zhí)行的計算機程序,其特征在于,所述計算機處理器執(zhí)行權(quán)利要求1所述的基于CycleGAN的語音識別模型的防御方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學(xué),未經(jīng)浙江工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010433039.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于生成對抗網(wǎng)絡(luò)數(shù)據(jù)增強的人臉表情識別方法和裝置
- 基于多任務(wù)對抗學(xué)習(xí)的視頻轉(zhuǎn)換方法、存儲介質(zhì)及終端
- 半優(yōu)化CycleGAN模型的語音轉(zhuǎn)換方法及裝置
- 基于結(jié)構(gòu)特征自增強的CT-MR模態(tài)遷移方法
- 三重多尺度的CycleGAN、眼底熒光造影生成方法、計算機設(shè)備及存儲介質(zhì)
- 基于修正的CycleGAN模型的聲納圖像庫構(gòu)建方法
- 將CBCT圖像生成為CT圖像的方法、裝置及終端設(shè)備
- 紅外圖像轉(zhuǎn)換方法、活體檢測方法、裝置、可讀存儲介質(zhì)
- 網(wǎng)紋人臉識別方法及裝置
- 一種基于ASPP-CycleGAN的深度估計系統(tǒng)及其算法





