[發明專利]一種黑盒場景下的定向對抗音頻生成方法及系統在審

申請號：	201910060662.0	申請日：	2019-01-22
公開（公告）號：	CN109887496A	公開（公告）日：	2019-06-14
發明（設計）人：	紀守領;杜天宇;李進鋒;陳建海	申請（專利權）人：	浙江大學
主分類號：	G10L15/06	分類號：	G10L15/06;G10L15/02;G10L25/24
代理公司：	杭州天勤知識產權代理有限公司 33224	代理人：	胡紅娟
地址：	310013 浙江***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	源音頻音頻識別黑盒對抗攻擊目標目標函數語音識別重采樣噪聲粒子群算法場景模型識別輸入音頻選擇目標樣本生成采樣率選擇源擾動疊加
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種黑盒場景下的定向對抗音頻生成方法，其特征在于，包括以下步驟：

(1)選擇目標黑盒語音識別模型作為音頻識別模型，選擇源音頻并設定攻擊目標；

(2)根據音頻識別模型對輸入音頻采樣率的要求，對源音頻進行重采樣；

(3)提取重采樣后源音頻的MFCC特征；

(4)采用音頻識別模型對所述的MFCC特征進行識別，得到識別結果；

(5)設定目標函數，利用粒子群算法尋找使目標函數值最小的最佳噪聲，將最佳噪聲與源音頻疊加，獲得識別結果為攻擊目標的定向對抗音頻。

2.根據權利要求1所述的黑盒場景下的定向對抗音頻生成方法，其特征在于，所述的黑盒語音識別模型為對語音進行分類且輸出類別固定的語音識別模型。

3.根據權利要求1所述的黑盒場景下的定向對抗音頻生成方法，其特征在于，步驟(3)包括：

(3-1)對預處理后的音頻進行預加重處理，使音頻的頻譜變得平坦；

(3-2)之后將音頻分成若干幀，并將每一幀乘以漢明窗；

(3-3)對各幀音頻進行快速傅里葉變換，得到各幀音頻的頻譜，從音頻的頻譜獲得音頻的能量譜；

(3-4)將音頻的能量譜通過一組Mel尺度的三角形濾波器組；

(3-5)計算每個三角形濾波器輸出的對數能量，將對數能量經離散余弦變換，得到MFCC系數階數階的Mel-scaleCepstrum參數；提取音頻的動態差分參數；

(3-6)得到MFCC特征。

4.根據權利要求3所述的黑盒場景下的定向對抗音頻生成方法，其特征在于，MFCC特征提取中的參數為：預加重參數為0.97；512個采樣點為一幀，幀與幀之間的重疊區域包含171個采樣點，加窗參數為0.46；快速傅立葉變換點數為512；三角形濾波器個數為26；MFCC階數為16。

5.根據權利要求1所述的黑盒場景下的定向對抗音頻生成方法，其特征在于，所述的目標函數為：

其中，x為源音頻，p_i(i＝1，...，N)為第i個粒子，N為正整數；f(x+p_i)_j為音頻識別模型針對輸入x+p_i輸出為第j類結果的概率；t為攻擊目標，f(x+p_i)_t為音頻識別模型針對輸入x+p_i輸出為t的概率；參數κ為小于等于0的常數。

6.根據權利要求5所述的黑盒場景下的定向對抗音頻生成方法，其特征在于，步驟(5)中，利用粒子群算法尋找使目標函數值最小的最佳噪聲，包括：

(5-1)將迭代次數初始化為0，均勻分布生成N個粒子p_i(i＝1，...，N)，粒子的長度與源音頻長度相同；

(5-2)將每個粒子p_i分別與源音頻x疊加，得到N個音頻x+p_i；

(5-3)提取音頻x+p_i的MFCC特征，采用音頻識別模型對音頻x+p_i的MFCC特征進行識別，得到每個音頻x+p_i的識別結果，并計算其目標函數值g(x+p_i)；

若存在任一音頻x+p_i的識別結果為攻擊目標，則攻擊成功，粒子p_i即為最佳噪聲；

否則，執行步驟(5-4)；

(5-4)將迭代次數加1，均勻分布生成N-1個粒子p_i(i＝1，...，N-1)，并將上一輪次中具有最小目標函數值的粒子加入，作為下一輪迭代的種子；

重復步驟(5-2)～(5-3)，直至目標函數收斂，獲得使目標函數收斂的粒子p_i，即為最佳噪聲；

若迭代次數達到設定的最大迭代次數時目標函數仍未收斂，則攻擊失敗。

7.一種黑盒場景下的定向對抗音頻生成系統，其特征在于，包括：

數據預處理模塊，對源音頻數據進行重采樣，使源音頻的采樣率符合黑盒語音識別模型對輸入音頻采樣率的要求；

音頻特征提取模塊，提取音頻數據的MFCC特征；

音頻識別模塊，具有黑盒語音識別模型，所述黑盒語音識別模型對音頻的MFCC特征進行識別，得到識別結果；

粒子群優化模塊，具有目標函數，利用粒子群算法尋找最佳噪音，將最佳噪音加入源音頻，得到定向對抗音頻。

所述定向對抗音頻生成系統采用所述的定向對抗音頻生成方法生成定向對抗音頻；

所述的定向對抗音頻生成系統采用權利要求1～6任一項所述的定向對抗音頻生成方法生成定向對抗音頻。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于浙江大學，未經浙江大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910060662.0/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：聲音處理裝置、聲音處理方法及記錄介質
下一篇：語音識別的建模方法、裝置及設備

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提?。蛔R別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】