[發明專利]一種基于PSO算法的語音識別攻擊防御方法有效
| 申請號: | 201910851698.0 | 申請日: | 2019-09-10 |
| 公開(公告)號: | CN110767216B | 公開(公告)日: | 2021-12-07 |
| 發明(設計)人: | 陳晉音;鄭喆 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/20;H04L9/00 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵;黃美娟 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 pso 算法 語音 識別 攻擊 防御 方法 | ||
1.一種基于PSO算法的語音識別攻擊防御方法,包括以下步驟:
(1)準備原始音頻數據集:采集多種不同場景下的多種類音頻并進行預處理,分成預訓練數據集、測試數據集和用于生成對抗樣本的擾動數據集,其具體過程如下:
Step11:采集多種場景下的多種類音頻,包括人說話的聲音、音樂聲真實生活場景中的聲音,其中人說話的內容包括文章朗讀片段、各種指示指令,音頻采集環境包含安靜環境和嘈雜環境,嘈雜環境中有汽車鳴笛聲、音樂聲、人說話聲音的干擾,干擾的影響有限,能夠使人類清晰識別出說話者的說話內容;
Step12:將上述采集的音頻進行裁剪并處理成數據流格式的音頻文件,對每個音頻都添加相應的標簽;
Step13:將預處理后的音頻分成預訓練數據集、測試數據集和用于生成對抗樣本的擾動數據集;
(2)訓練語音識別模型:搭建語音識別模型并初始化模型的相關參數,利用預訓練數據集對語音識別模型進行訓練,并使用測試數據集測試模型的識別準確率,若模型不能達到預設的準確率,則調整語音識別模型的參數重新訓練測試,直到模型達到預設的識別準確率;
(3)攻擊語音識別模型:搭建基于PSO算法的攻擊方法,設置適應度函數及PSO算法的相關參數,利用該攻擊方法生成的最優對抗樣本能夠被錯誤識別且不被人耳識別;攻擊語音識別模型的具體過程如下:
Step31:初始化適應度函數,定義適應度函數如下;
其中,第一項CTC-Loss利用CTC算法來衡量對抗樣本與原始音頻標簽之間的距離,第二項中x表示生成的對抗樣本,x0表示原始音頻,該項通過L2范數來衡量對抗樣本與原始音頻樣本之間的差異,c為一個常數,使得生成的對抗樣本與原始音頻之間的差異盡可能小,而對抗樣本轉錄結果與原始音頻標簽之間的差距盡可能大,在人耳不能發覺的情況下實現無目標攻擊;
Step32:初始化PSO算法的相關參數;設置最大迭代次數Gk,初始慣性因子ωini,最大迭代次數時的慣性因子ωend,粒子群中的個體數量m;為了防止對抗樣本失真,限制粒子位置范圍[xl,xh],即對抗樣本每個采樣點的值在[xl,xh]范圍內;
Step33:初始化種群;隨機初始化擾動矩陣,擾動矩陣與原始音頻矩陣的形狀相同,將擾動矩陣與原始音頻矩陣疊加得到初始對抗樣本,設為X={x1,x2,...,xm};
Step34:更新慣性權重因子;對于第g次更新,慣性權重因子應滿足:
ω(g)=(ωini-ωend)(Gk-g)/Gk+ωend (2)
Step35:更新粒子的速度和位置;計算當前每個粒子的適應度,得到每個粒子歷史最優位置pbesti(1≤i≤m),種群全局最優位置gbest,則每個粒子速度的更新滿足:
其中,表示第i個粒子在第g次更新后的速度,表示第i個粒子在第g次更新后的位置,c1和c2為學習因子,通常設置為2,rand1和rand2為介于(0,1)之間的隨機數,限制粒子的速度范圍[vl,vh];
粒子位置的更新過程如下所示:
當微粒的位置、速度超出設定的范圍時,即音頻矩陣中的幅值和變化速度超出范圍時,則用邊界值取代;
Step36:若迭代次數達到設定的最大迭代次數或者全局最優個體與原始音頻標簽的CTC-Loss達到設定值時,則停止迭代,并將最優對抗樣本轉換為音頻;若不滿足上述條件,則重復Step33-Step35的步驟,繼續迭代尋優;
(4)對抗訓練語音識別模型:將步驟(3)中生成的對抗樣本加入預訓練數據集中,重新訓練語音識別模型,使得語音識別模型具有防御對抗樣本攻擊的能力,提高模型的安全性和穩定性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910851698.0/1.html,轉載請聲明來源鉆瓜專利網。





