[發(fā)明專(zhuān)利]一種對(duì)抗攻擊免疫的自動(dòng)語(yǔ)音識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110357849.4 | 申請(qǐng)日: | 2021-04-01 |
| 公開(kāi)(公告)號(hào): | CN113223515B | 公開(kāi)(公告)日: | 2022-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 徐東亮;姜開(kāi)勛;郗浩宇 | 申請(qǐng)(專(zhuān)利權(quán))人: | 山東大學(xué) |
| 主分類(lèi)號(hào): | G10L15/22 | 分類(lèi)號(hào): | G10L15/22;G10L15/26;G10L25/24;G10L15/06 |
| 代理公司: | 鄭州睿途知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 41183 | 代理人: | 李伊寧 |
| 地址: | 264209 山東*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 對(duì)抗 攻擊 免疫 自動(dòng) 語(yǔ)音 識(shí)別 方法 | ||
1.一種對(duì)抗攻擊免疫的自動(dòng)語(yǔ)音識(shí)別方法,其特征在于:依次包括以下步驟:
A:選取語(yǔ)音數(shù)據(jù)集,并將語(yǔ)音數(shù)據(jù)集中的音頻根據(jù)設(shè)定的采樣頻率進(jìn)行采樣,選取最長(zhǎng)音頻的采樣結(jié)果作為長(zhǎng)度標(biāo)準(zhǔn),然后對(duì)低于長(zhǎng)度標(biāo)準(zhǔn)的所有采樣結(jié)果分別進(jìn)行數(shù)據(jù)補(bǔ)零對(duì)齊,最終得到語(yǔ)音采樣數(shù)據(jù);
B:根據(jù)步驟A中得到的語(yǔ)音采樣數(shù)據(jù)生成語(yǔ)音對(duì)抗樣本;
步驟B中,利用步驟A中得到的語(yǔ)音采樣數(shù)據(jù)生成兩種類(lèi)型的語(yǔ)音對(duì)抗樣本;
步驟B包括具體步驟:
B1:根據(jù)CW方法生成第一種語(yǔ)音對(duì)抗樣本;CW方法指Carlini and Wagner Attacks方法;
根據(jù)CW方法生成語(yǔ)音對(duì)抗樣本的具體方法如下:
B11:將步驟A中得到的語(yǔ)音采樣數(shù)據(jù)加上一個(gè)隨機(jī)的噪聲δ,隨機(jī)的噪聲δ符合高斯分布;
B12:首先將混入隨機(jī)的噪聲δ的語(yǔ)音采樣數(shù)據(jù)通過(guò)梅爾頻率倒譜系數(shù)進(jìn)行特征提取,得到語(yǔ)音特征;然后將語(yǔ)音特征輸入到語(yǔ)音識(shí)別模型中,得到以文本形式輸出的識(shí)別結(jié)果;
B13:利用損失函數(shù)對(duì)加入語(yǔ)音采樣數(shù)據(jù)中的隨機(jī)的噪聲δ進(jìn)行反向傳播訓(xùn)練,最終得到訓(xùn)練后的噪聲δ;
損失函數(shù)為:
其中,minimize表示最小化,δ為添加的隨機(jī)的噪聲;||δ||2表示δ的L2范式,c為權(quán)值,x表示語(yǔ)音采樣數(shù)據(jù),x+δ表示添加噪聲δ后的語(yǔ)音采樣數(shù)據(jù);T(x+δ)表示步驟B12中得到的添加噪聲δ的語(yǔ)音數(shù)據(jù)經(jīng)過(guò)處理后輸入語(yǔ)音識(shí)別模型中輸出的識(shí)別結(jié)果文本,t表示目標(biāo)語(yǔ)音對(duì)應(yīng)的文本;l(T(x+δ),t)表示添加噪聲δ后的語(yǔ)音采樣向量經(jīng)過(guò)MFCC處理后放入DeepSpeech中的識(shí)別結(jié)果與目標(biāo)語(yǔ)音對(duì)應(yīng)的文本經(jīng)過(guò)CTC編碼對(duì)齊后得到損失值,l(T(x+δ),t)的邏輯意義表示添加噪聲的語(yǔ)音特征的識(shí)別結(jié)果與目標(biāo)語(yǔ)音差異最小,dBx(δ)≤τ為該損失函數(shù)的約束條件,dBx(δ)=dB(δ)-dB(x),表示添加的噪聲與原語(yǔ)音采樣數(shù)據(jù)的差異,τ為常數(shù);
B14:將步驟B13迭代生成的訓(xùn)練后的噪聲δ與步驟A中生成的語(yǔ)音采樣數(shù)據(jù)相加,寫(xiě)入wav格式的文件,得到第一種語(yǔ)音對(duì)抗樣本;
B2:根據(jù)有目標(biāo)的PGD攻擊方法生成第二種語(yǔ)音對(duì)抗樣本:PGD攻擊方法指ProjectGradient Descent攻擊方法;
根據(jù)有目標(biāo)的PGD攻擊方法生成第二種語(yǔ)音對(duì)抗樣本的具體方法如下:
B21:定義參數(shù)取值,參數(shù)包括學(xué)習(xí)率、每一次迭代的步幅大小及迭代次數(shù);
B22:根據(jù)下述公式進(jìn)行梯度下降,迭代生成對(duì)抗語(yǔ)音數(shù)據(jù);
其中,表示第i次迭代生成的對(duì)抗語(yǔ)音數(shù)據(jù),clip表示每次迭代的步幅,α表示學(xué)習(xí)率,x表示步驟A中獲得語(yǔ)音采樣數(shù)據(jù),t表示目標(biāo)語(yǔ)音對(duì)應(yīng)的文本,表示第i次迭代產(chǎn)生的對(duì)抗語(yǔ)音數(shù)據(jù)輸入到語(yǔ)音識(shí)別模型DeepSpeech中的識(shí)別結(jié)果文本與目標(biāo)語(yǔ)音對(duì)應(yīng)的文本t經(jīng)過(guò)CTC編碼對(duì)齊后得到損失值,表示模型的梯度值經(jīng)過(guò)符號(hào)函數(shù)sign處理的結(jié)果;
B23:將最后一次迭代生成的對(duì)抗語(yǔ)音數(shù)據(jù)寫(xiě)入wav格式的文件,得到第二種語(yǔ)音對(duì)抗樣本;
C:對(duì)步驟A中選取的語(yǔ)音數(shù)據(jù)集中的音頻以及步驟B中的語(yǔ)音對(duì)抗樣本根據(jù)設(shè)定的采樣率進(jìn)行采樣,然后選取語(yǔ)音數(shù)據(jù)集和語(yǔ)音對(duì)抗樣本中的最長(zhǎng)的采樣結(jié)果作為長(zhǎng)度標(biāo)準(zhǔn),對(duì)低于長(zhǎng)度標(biāo)準(zhǔn)的語(yǔ)音數(shù)據(jù)集和語(yǔ)音對(duì)抗樣本中的每一個(gè)采樣結(jié)果分別進(jìn)行補(bǔ)零對(duì)齊,得到防御模型的輸入;將語(yǔ)音數(shù)據(jù)集中的音頻對(duì)應(yīng)的數(shù)據(jù)稱為原音頻,語(yǔ)音對(duì)抗樣本對(duì)應(yīng)的數(shù)據(jù)稱為對(duì)抗音頻;
D:構(gòu)建基于GAN模型的DD-GAN防御模型;DD-GAN模型包括生成模型和判別模型,生成模型G模型用于將對(duì)抗音頻進(jìn)行去對(duì)抗性處理,生成無(wú)對(duì)抗性的音頻;判別模型D模型用于判斷G模型生成的音頻是否具有對(duì)抗性;DD-GAN模型指Deep Defense GAN模型;
步驟D中,G模型的構(gòu)建過(guò)程如下:
D11:構(gòu)造G模型的編碼部分;
G模型包含12個(gè)編碼器,每一個(gè)編碼器均為一個(gè)卷積的過(guò)程,編碼器結(jié)構(gòu)包括卷積類(lèi)型、步長(zhǎng)、激活函數(shù)和卷積核大小;
D12:構(gòu)建隱變量;
D13:構(gòu)造G模型的解碼部分;
G模型包含12個(gè)解碼器,每一個(gè)解碼器均為一個(gè)反卷積的過(guò)程,解碼器的結(jié)構(gòu)包括反卷積類(lèi)型、步長(zhǎng)、激活函數(shù)和卷積核大小;
其中,12個(gè)解碼器依次為第一解碼器,第二解碼器,……,第十二解碼器;12個(gè)編碼器依次為第一編碼器,第二編碼器,……,第十二編碼器;
G模型的生成過(guò)程如下:
D21:將步驟C中獲得的原音頻作為輸入,依次使用每一個(gè)編碼器進(jìn)行編碼操作;將最后一次編碼操作后得到的特征向量與隱變量進(jìn)行拼接;
D22:將特征向量與隱變量進(jìn)行拼接后的特征向量,依次使用每一個(gè)解碼器進(jìn)行解碼操作,在第一解碼器至第十一解碼器每次解碼完成后,分別將解碼得到的特征向量,與對(duì)應(yīng)的編碼器編碼得到的特征向量進(jìn)行拼接作為下一次解碼的輸入;其中,第一解碼器與第十一編碼器對(duì)應(yīng),第二解碼器與第十編碼器對(duì)應(yīng),……,第十一解碼器與第一編碼器對(duì)應(yīng);
D23:第十二解碼器解碼后得到的特征向量,與步驟D21中作為輸入的原音頻為大小相等的特征向量;最終得到G模型生成的語(yǔ)音數(shù)據(jù),記為生成音頻;
D模型的結(jié)構(gòu)構(gòu)建過(guò)程如下:
D31:構(gòu)造與G模型編碼部分相同的編碼器;
D32:構(gòu)造一個(gè)一維全卷積,使得編碼得到的特征向量的通道數(shù)變?yōu)?,卷積核的大小為1,步長(zhǎng)為1;
D33:構(gòu)造一個(gè)全連接層,全連接層的輸入為上一步的輸出向量,全連接層的輸出為一個(gè)表示概率值的神經(jīng)元,若神經(jīng)元為1則表示輸入的音頻不具有對(duì)抗性,若神經(jīng)元為0則表示輸入的音頻具有對(duì)抗性;
D模型的前向傳播過(guò)程為:
D41:D模型的輸入為變量組,變量組有兩種情況:
第一種情況,輸入的變量組為對(duì)抗音頻與原音頻組合,D模型中全連接層輸出的神經(jīng)元為1,表示原音頻不具有對(duì)抗性;第二種情況為生成音頻與對(duì)抗音頻的組合,D模型中全連接層輸出的神經(jīng)元為0,表示生成音頻具有對(duì)抗性;
D42:將輸入進(jìn)行編碼得到的編碼向量經(jīng)過(guò)一維卷積得到通道數(shù)為1的特征向量;
D43:將步驟D42中生成的特征向量進(jìn)行全連接,得到D模型中全連接層輸出的神經(jīng)元;
步驟D中:
G模型的構(gòu)建過(guò)程中,
在步驟D11中:編碼器的卷積類(lèi)型為一維卷積,步長(zhǎng)為2,卷積核大小為31;激活函數(shù)為L(zhǎng)eakyRelu;
其中,a的取值為0.01;
在步驟D12中:隱變量的大小為經(jīng)過(guò)12個(gè)編碼器編碼后形成的特征向量的大小;
在步驟D13中:解碼器的卷積類(lèi)型為一維反卷積,步長(zhǎng)為2,激活函數(shù)為L(zhǎng)eakyRelu,卷積核的大小為31;
G模型的生成過(guò)程中,
在步驟D21中:將步驟C中獲得的原音頻作為輸入并依次使用每一個(gè)編碼器進(jìn)行編碼操作后,得到大小為4×1024的特征向量,其中1024為通道的數(shù)量;原音頻為一維特征向量,大小為16384;將最后一次編碼操作后得到的特征向量與隱變量進(jìn)行拼接后,得到大小為4×2048的特征向量;
在步驟D22中:將大小為4×2048的特征向量依次使用每一個(gè)解碼器進(jìn)行解碼操作;
D模型的前向傳播過(guò)程中,
在步驟D41中:輸入的變量組為對(duì)抗音頻大小為16384,原音頻大小為16384,抗音頻與原音頻組合后大小為16384×2;生成音頻大小為16384,生成音頻與對(duì)抗音頻的組合后大小為16384×2;
在步驟D42中:將大小為16384×2的輸入進(jìn)行編碼,得到大小為4×1024的編碼向量;大小為4×1024的編碼向量經(jīng)過(guò)一維卷積得到通道數(shù)為1且大小為4×1的特征向量;
在步驟D43中:將步驟D42中生成的大小為4×1的特征向量進(jìn)行全連接;
E:分別確定G模型與D模型的損失函數(shù),并根據(jù)損失函數(shù)對(duì)防御模型DD-GAN進(jìn)行訓(xùn)練;
步驟E中:
G模型的損失函數(shù)為:
其中,n為原音頻的訓(xùn)練集的音頻個(gè)數(shù),為第i個(gè)原音頻對(duì)應(yīng)的對(duì)抗音頻,x(i)為第i個(gè)原音頻,為G模型產(chǎn)生的生成音頻,表示D模型判斷G模型產(chǎn)生的生成音頻是否具有對(duì)抗性的概率,λ為調(diào)節(jié)參數(shù),表示L2范式,z為隱變量;
D模型的損失函數(shù)為:
F:將待識(shí)別語(yǔ)音利用步驟E中訓(xùn)練好的防御模型DD-GAN處理后,再通過(guò)語(yǔ)音識(shí)別模型進(jìn)行識(shí)別。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于山東大學(xué),未經(jīng)山東大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110357849.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取;識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板;訓(xùn)練語(yǔ)音識(shí)別系統(tǒng),例如對(duì)說(shuō)話者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類(lèi)或檢索
G10L15-20 .專(zhuān)門(mén)適用于不利環(huán)境
- 農(nóng)業(yè)信息對(duì)抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源線性規(guī)劃最優(yōu)分配方法
- 基于聚類(lèi)數(shù)據(jù)挖掘的對(duì)抗行為搜索算法
- 面向多種對(duì)抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對(duì)抗強(qiáng)度的對(duì)抗訓(xùn)練方法
- 對(duì)抗攻擊模型的訓(xùn)練方法及裝置
- 對(duì)抗樣本的生成方法和裝置
- 多樣本對(duì)抗擾動(dòng)生成方法、裝置、存儲(chǔ)介質(zhì)和計(jì)算設(shè)備
- 一種無(wú)人集群協(xié)同博弈對(duì)抗的控制方法及系統(tǒng)
- 一種基于FPGA的網(wǎng)絡(luò)行為攻擊方法與裝置
- 一種網(wǎng)絡(luò)攻擊防御方法與裝置
- 一種防火墻攻擊防御方法
- 一種網(wǎng)絡(luò)行為攻擊裝置
- 一種網(wǎng)絡(luò)行為攻擊方法
- 一種網(wǎng)絡(luò)攻擊路線還原方法及系統(tǒng)
- 滲透攻擊評(píng)價(jià)方法和裝置、以及電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 一種攻擊檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于攻擊者特性指標(biāo)的網(wǎng)絡(luò)攻擊路徑預(yù)測(cè)方法
- APT攻擊事件溯源分析方法、裝置和計(jì)算機(jī)可讀介質(zhì)
- 芪黃肽注射液的制備方法
- 免疫層析卡連續(xù)自動(dòng)判讀儀
- 抗癌治療中的免疫系統(tǒng)營(yíng)養(yǎng)支持
- 免疫應(yīng)答調(diào)節(jié)性物質(zhì)和含有該免疫應(yīng)答調(diào)節(jié)性物質(zhì)的疫苗組合物
- 一種可提高肺部黏膜免疫應(yīng)答水平的免疫佐劑及其應(yīng)用
- 一種預(yù)測(cè)頭頸部腫瘤免疫治療療效的標(biāo)志物及應(yīng)用
- 養(yǎng)殖物的免疫任務(wù)的管理方法、管理裝置及管理系統(tǒng)
- 一種免疫損傷分析方法
- 免疫細(xì)胞體外培養(yǎng)、誘導(dǎo)、激活、凍存方法及其細(xì)胞庫(kù)建立
- 免疫狀態(tài)評(píng)估方法及應(yīng)用





