[發明專利]基于音素時長特征的虛假語音檢測方法及裝置有效
| 申請號: | 202110841276.2 | 申請日: | 2021-07-26 |
| 公開(公告)號: | CN113284513B | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 陶建華;汪濤;易江燕;傅睿博 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/30;G10L25/24;G10L25/18;G06N3/08;G06N3/04;G06N3/00 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 李永葉 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 音素 特征 虛假 語音 檢測 方法 裝置 | ||
本發明提供基于音素時長特征的虛假語音檢測方法,包括:從音頻訓練數據中提取聲學特征;利用音頻訓練數據對深度學習網絡進行預訓練,得到預訓練深度學習網絡;應用預訓練深度學習網絡的最后n層的隱含特征作為中間變量,提取音素時長特征向量;將所述聲學特征和所述音素時長特征向量作為輸入,輸入到判別器進行訓練;應用音頻測試數據,重復步驟S1?S3,得到測試數據的聲學特征和音素時長特征向量,將測試數據的聲學特征和音素時長特征向量輸入到訓練好的判別器,得測試語音的真偽檢測結果。
技術領域
本發明涉及虛假語音檢測領域,具體涉及基于音素時長特征的虛假語音檢測方法及裝置。
背景技術
防偽檢測最先在圖像和視頻領域取得突破性進展。最常見的AI換臉算法有DeepFake、FaceSwap 和 Face2Face三種,對于它們所生成的人臉,人類的識別率甚至低于40%。不過得益于大型虛假人臉數據集FaceForensics的發布,人臉的防偽檢測取得突破性進展,來自微軟亞洲研究院視覺計算組的學者提出的模型一舉將假臉鑒別的準確率提升到了99%以上。近些年端到端語音合成的系統生成的語音音質越來越高,足以以假亂真,但是關于聲音防偽檢測的研究。隨著端到端合成和轉換系統的進步,用這些系統能夠生成極其逼近真人聲音的虛假音頻,人耳幾乎無法分辨這些聲音的真假,這也使得增加了聲音防偽檢測的很大的難度。2015年之后,由國際信息學研究所、愛丁堡大學、芬蘭東部大學等全世界著名大學和研究所以及包括谷歌等科技公司發起了自動說話人欺騙驗證系統(ASVspoof)評測大賽,極大的推動了聲音防偽檢測領域的發展。近幾年,關于聲音防偽檢測的研究方法主要集中于兩個方面。第一個是特征層面,高斯混合模型(Gaussian MixtureModel,GMM)分類器聯合常數Q倒譜系數(CQCC)在各種反欺騙任務中得到了廣泛的關注。CQCC特征是從常量Q變換(CQT)中提取的一種受感知啟發的時頻分析。考慮到虛假聲音和真實聲音的相似性,一種特征可能無法完全展示出兩者的差異,一些研究者嘗試使用多種特征融合的方法來提高特征的區分性,同時避免有效信息的丟失。另外受限于目前的數據集大小,通過數據擴增的方法也能夠通過提高模型的魯棒性來提高模型的識別效果。第二個是模型層面,很多研究者試圖通過尋找更加魯棒的模型結構來提高模型的鑒別效果。典型的就是采用深度神經網絡中的卷積神經網絡,通過設計不同卷積層之間的連接結構,以及不同的模型參數來提高模型的性能。單個模型的表現能力也是有限的,部分工作嘗試使用集成學習的方法,采用多個模型同時對輸入語句進行鑒別,判斷句子的真偽。
目前的聲音防偽檢測研究,雖然獲得了一定的性能提升,但是缺乏對于真實聲音與虛假聲音之間差異的理論研究,不能從特征和信號層面解釋真實聲音和虛假聲音之間的差異。
公開號為CN112992126A公開了一種語音真偽的驗證方法、裝置、電子設備及可讀存儲介質,包括:獲取待識別語音;將待識別語音輸入預先訓練好的聲音特征提取網絡,得到目標特征向量;目標特征向量包含用于區分聲音來源的待識別語音的時序信息以及音素長時對應信息;將目標特征向量輸入至預先訓練好的分類模型中,確定待識別語音是否為真實用戶發出的;分類模型是基于最大互信息準則進行訓練的,用于區分真實語音與偽造語音。
公開號為CN111613240A公開了一種基于注意力機制和BiLSTM的偽裝語音檢測方法,包括:S1 .提取語音樣本中與語音相對應的語音特征數據,并將提取出的語音特征數據轉換為語音圖像數據;S2 .采用雙向長短期記憶網絡Bi-LSTM對轉換得到的語音圖像數據進行處理,得到圖像數據的深度特征;S3 .采用注意力機制對所述得到的深度特征進行計算,得到注意力的概率分布;S4 .采用DNN分類器對得到的注意力概率分布進行分類,得到最終的偽裝語言檢測結果。
現有技術缺點:
1)缺乏對于真實聲音與虛假聲音之間差異的理論研究,不能從真實語音與虛假語音之間的韻律差異來進行判別。
2)聲音的防偽檢測要求系統具有魯棒性,能夠鑒別出來自于多種不同的合成系統的虛假聲音。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110841276.2/2.html,轉載請聲明來源鉆瓜專利網。





