[發明專利]一種基于對抗樣本的語音數據隱私保護方法在審

申請號：	202110271786.0	申請日：	2021-03-12
公開（公告）號：	CN113129875A	公開（公告）日：	2021-07-16
發明（設計）人：	陳雙喜;肖文紅;馬方超;劉會;吳至禹	申請（專利權）人：	嘉興職業技術學院
主分類號：	G10L15/065	分類號：	G10L15/065
代理公司：	嘉興啟帆專利代理事務所(普通合伙) 33253	代理人：	程開生
地址：	314500 ***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于對抗樣本語音數據隱私保護方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于對抗樣本的語音數據隱私保護方法，用于保護用戶的隱私語音數據，其特征在于，包括以下步驟：

步驟S1：加載語音識別模型D；

步驟S2：根據語音識別模型D對用戶的音頻數據x進行預檢測，以獲得概率分布矩陣D(x)的識別結果，其中：

D(x)表示音頻數據x的每一幀對應于英文中26個字符的概率分布矩陣；

步驟S3：通過公式從概率分布矩陣D(x)中提取出音頻數據x對應的字符序列S(x)，并且字符序列S(x)為需要保護的用戶的隱私語音數據，其中：

Pr(s|D(x))表示語音識別模型D將語音數據x識別為字符序列s的概率，Pr(s|D(x))的值在[0,1]之間；

步驟S4：記y＝S(x)，初始化x₀＝x，i＝0，設置閾值T、迭代步長ε、最大迭代輪數N，并且構建生成對抗樣本的損失函數L(x_i,y)＝-log(Pr(S(x)|D(x_i)))，通過公式x_i+1＝x_i+ε×sign(▽_xiL(x_i,y))，迭代生成語音對抗樣本，每輪迭代后重新計算損失函數L(x_i,y)的值，若L(x_i,y)＞T則繼續迭代直到L(x_i,y)≤T，若L(x_i,y)≤T則停止迭代并輸出x_i，若當前迭代次數超過所設置的最大迭代輪數則停止迭代并輸出x_i。

2.根據權利要求1所述的一種基于對抗樣本的語音數據隱私保護方法，其特征在于，音頻數據x是一個K維向量，向量的每一維是16位，代表16KHz，采用MFC方法對音頻數據x進行預處理。

3.根據權利要求2所述的一種基于對抗樣本的語音數據隱私保護方法，其特征在于，步驟S2中，使用0-25這26個數字分別表示26個英文字符a-z。

4.根據權利要求3所述的一種基于對抗樣本的語音數據隱私保護方法，其特征在于，步驟S3中，使用torch中的softmax函數將Pr(s|D(x))的值映射在[0,1]之間。

5.根據權利要求4所述的一種基于對抗樣本的語音數據隱私保護方法，其特征在于，步驟S4中，閾值T設置為0.5，迭代步長ε設置為0.1，最大迭代輪數N設置為40。

6.根據權利要求5所述的一種基于對抗樣本的語音數據隱私保護方法，其特征在于，步驟S4中，在每一輪迭代中，在音頻數據x上添加細微的擾動，該擾動使得音頻數據x朝著使得損失函數L(x_i,y)的值增大的方向移動，隨著損失函數L(x_i,y)的不斷增大，語音識別模型D將音頻數據x識別為y的概率會逐漸減小，直到將音頻數據x誤判。

7.一種電子設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，其特征在于，所述處理器執行所述程序時實現如權利要求1至6任一項所述一種基于對抗樣本的語音數據隱私保護方法的步驟。

8.一種非暫態計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，該計算機程序被處理器執行時實現如權利要求1至6任一項所述一種基于對抗樣本的語音數據隱私保護方法的步驟。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于嘉興職業技術學院，未經嘉興職業技術學院許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110271786.0/1.html，轉載請聲明來源鉆瓜專利網。