[發明專利]基于StarGAN的語音識別模型的防御方法有效
| 申請號: | 202011172485.4 | 申請日: | 2020-10-28 |
| 公開(公告)號: | CN112349281B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 陳晉音;葉林輝 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G10L15/20 | 分類號: | G10L15/20;G10L15/16;G10L15/06;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 stargan 語音 識別 模型 防御 方法 | ||
1.一種基于StarGAN的語音識別模型的防御方法,其特征在于,包括以下步驟:
構建StarGAN模型,所述StarGAN模型包括均由卷積神經網絡構成的生成器、判別器以及分類器,所述生成器用于根據輸入音頻樣本生成具有給定屬性的生成音頻,所述判別器用于判別輸入音頻在給定屬性下的預測置信度,所述分類器用于分類輸入音頻的分類置信度;
構建StarGAN模型的訓練損失函數,損失函數包括對抗損失函數、分類損失函數,循環一致損失函數,其中,所述對抗損失函數用來提升生成器和判別器的性能,使生成音頻仍符合給定屬性下的音頻數據分布,所述分類損失函數用于使生成器生成多類別的生成音頻以及分類器分類性能的提升,所述循環一致損失函數用于保留音頻的語音信息以及生成器的多樣性,即避免生成器將輸入音頻映射為對抗音頻和正常音頻中的某一個而失效;
利用正常音頻和對抗音頻組成的訓練樣本集,以訓損失函數最小為目標對StarGAN模型進行訓練,訓練結束后,提取訓練好分類器和生成器用于語音識別;
語音識別過程中,利用訓練好的分類器對原始音頻進行分類,當分類結果為正常音頻時,直接利用語音識別模型對原始音頻進行語音識別,獲得語音識別結果;當分類結果不為正常音頻時,利用生成器對原始音頻生成符合給定的正常音頻屬性的生成音頻,再利用語音識別模型對生成音頻進行語音識別,獲得語音識別結果。
2.如權利要求1所述的基于StarGAN的語音識別模型的防御方法,其特征在于,所述對抗損失函數Ladv為:
其中,c~p(c)表示屬性c服從屬性c的概率分布p(c),y~p(y|c)表示訓練樣本集中具有屬性c的音頻y服從概率分布p(y|c),D(y,c)表示判別器D對音頻y在給定屬性c下的預測置信度,E(·)表示數學期望值,x~p(x)表示訓練樣本集中具有任意屬性的音頻x服從概率分布p(x),G(x,c)表示生成器G基于音頻x生成具有給定屬性c的生成音頻,D(G(x,c),c)表示判別器D對生成音頻G(x,c)在給定屬性c下的預測置信度。
3.如權利要求1或2所述的基于StarGAN的語音識別模型的防御方法,其特征在于,所述分類損失函數Lcls為:
其中,pC(c|y)表示分類器C對音頻y在屬性c下的分類置信度分布,pC(c|G(x,c))表示分類器C對生成音頻G(x,c)在屬性c下的分類置信度分布,E(·)表示數學期望值,c~p(c)表示屬性c服從屬性c的概率分布p(c),y~p(y|c)表示訓練樣本集中具有屬性c的音頻y服從概率分布p(y|c),x~p(x)表示訓練樣本集中具有任意屬性的音頻x服從概率分布p(x)。
4.如權利要求1所述的基于StarGAN的語音識別模型的防御方法,其特征在于,所述循環一致損失函數Lcyc為:
其中,c′~p(c)表示屬性c′概率分布p(c),x~p(y|c′)表示訓練樣本集中具有屬性c′的音頻x服從概率分布p(y|c′),G(G(x,c),c′)表示生成器G對生成音頻G(x,c)生成給定屬性c′下的生成音頻,G(x,c′)表示生成器G基于音頻x生成具有給定屬性c′的生成音頻,表示‖·‖ρ表示Lρ范數,c~p(c)表示屬性c服從屬性c的概率分布p(c);
損失函數Ladv表示為:
L=Ladv+Lcls+Lcyc。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011172485.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種企業車輛管理方法、系統及存儲介質
- 下一篇:一種蓮子生產用果皮回收裝置





