[發明專利]一種基于卷積神經網絡的翻錄語音檢測方法在審
| 申請號: | 201711323563.4 | 申請日: | 2017-12-13 |
| 公開(公告)號: | CN108198561A | 公開(公告)日: | 2018-06-22 |
| 發明(設計)人: | 王讓定;李璨;嚴迪群;林朗 | 申請(專利權)人: | 寧波大學 |
| 主分類號: | G10L17/18 | 分類號: | G10L17/18;G10L25/18;G10L17/04;G10L17/00;G10L17/02 |
| 代理公司: | 寧波奧圣專利代理事務所(普通合伙) 33226 | 代理人: | 周玨 |
| 地址: | 315211 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 卷積神經網絡 原始語音 負樣本 正樣本 訓練模型 語音檢測 訓練集 語音庫 構建 語音 分類結果 文本限制 測試集 準確率 偷錄 樣本 測試 檢測 | ||
本發明公開了一種基于卷積神經網絡的翻錄語音檢測方法,其先構建原始語音庫和翻錄語音庫;然后提取原始語音庫中的每個原始語音的語譜圖作為正樣本,提取翻錄語音庫中的每個翻錄語音的語譜圖作為負樣本,選擇一部分正樣本和負樣本構成訓練集,剩余部分正樣本和負樣本構成測試集;接著根據訓練集和卷積神經網絡框架,構建卷積神經網絡框架訓練模型;再將測試集中的每個樣本作為輸入,輸入到卷積神經網絡框架訓練模型中,得到分類結果;優點是其能夠在不受文本限制的情況下,針對多種偷錄設備的翻錄語音均具有較高的檢測準確率。
技術領域
本發明涉及一種語音檢測技術,尤其是涉及一種基于卷積神經網絡的翻錄語音檢測方法。
背景技術
隨著互聯網的不斷發展和便攜式智能終端的快速普及,人們能夠更加方便快捷地借助各種數字媒體(如圖像、音頻、視頻等)傳遞信息。與此同時,隨著回放設備、高保真錄音設備的普及,合法用戶的密語在請求進入識別系統時極易被攻擊者偷錄成功。翻錄語音經高保真錄音設備偷錄、回放設備回放,與原始語音具有較高的相似度,一些說話人認證系統也無法辨別,危害了合法用戶的權益;而且翻錄語音因偷錄設備體積小、易偷錄、成功率高等優勢,已成為攻擊語音認證系統中最易實施的方法。因此,對翻錄語音檢測已受到業內的廣泛重視。
近年來,對翻錄語音檢測的研究取得了一定的成果。
第一類,研究者根據語音產生的隨機性,對比了原始語音與翻錄語音的Peak map(Shang W,Stevenson M.A playback attack detector for speaker verificationsystems[C]//In ternational Symposium on Communications,Control and SignalProcessing.IEEE,2008:1144-1149.尚威,史蒂芬森.一種用于說話人認證系統的回放攻擊檢測算法[C]//通信、控制和信號處理國際會議.IEEE,2008:1144-1149。)的不同,提出了一種基于Peak map相似度的錄音回放檢測算法,若Peak map相似度大于設定的閾值,則判定為翻錄語音;反之,判定為原始語音。在此基礎上,有人對該算法進行了改進,在Peak map特性中加入了各語音頻率點的位置關系,依據待認證語音與原始語音在該特征上的相似度來判斷待認證語音是否為合法語音。以上方法只能針對文本相關的識別系統,無法適用于文本無關的翻錄語音檢測,具有較大的局限性。
第二類,根據信道模式特征,利用翻錄語音信道與原始語音信道之間的差異,提出了一種基于靜音段的MFCC(Mel-frequency cepstral coefficients,梅爾頻率倒譜系數)的翻錄語音檢測算法,該算法用原始語音數據的靜音段對原始語音信道建模,檢測待測語音與訓練語音的信道是否相同,從而判斷是否為翻錄攻擊。另一種算法根據原始語音與翻錄語音產生的信道不同,提取信道模式噪聲,并利用SVM(Support Vector Machine,支持向量機)得到了很好的分類結果。第三種算法根據高保真錄音設備信道對語音編碼過程的影響,提出了一種基于長窗比例因子的翻錄語音檢測算法。以上方法只能檢測單一設備錄制的語音,未對多種不同的偷錄設備及回放設備進行分析與研究,其中第二種算法提取的信道模式噪聲也不準確。
目前,針對翻錄語音檢測方面大部分工作都是針對一種偷錄設備及回放設備的翻錄語音,對多種錄音設備的翻錄語音檢測研究的關注較少。而在現實生活中,各種高保真錄音設備隨處可見,如錄音筆及各種智能手機,這類錄音設備攜帶便利且不易察覺,且獲得的翻錄語音與原始語音相似性較高,這類錄音設備是目前較為主流的偷錄設備。因此,研究針對多種錄音設備的翻錄語音檢測是非常有必要的。
發明內容
本發明所要解決的技術問題是提供一種基于卷積神經網絡的翻錄語音檢測方法,其在不受文本限制的情況下,針對多種偷錄設備的翻錄語音均具有較高的檢測準確率。
本發明解決上述技術問題所采用的技術方案為:一種基于卷積神經網絡的翻錄語音檢測方法,其特征在于包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于寧波大學,未經寧波大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711323563.4/2.html,轉載請聲明來源鉆瓜專利網。





