[發明專利]基于音素時長特征的虛假語音檢測方法及裝置有效
| 申請號: | 202110841276.2 | 申請日: | 2021-07-26 |
| 公開(公告)號: | CN113284513B | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 陶建華;汪濤;易江燕;傅睿博 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/30;G10L25/24;G10L25/18;G06N3/08;G06N3/04;G06N3/00 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 李永葉 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 音素 特征 虛假 語音 檢測 方法 裝置 | ||
1.基于音素時長特征的虛假語音檢測方法,其特征在于,所述方法包括:
S1:從音頻訓練數據中提取聲學特征;
S2:利用音頻訓練數據對深度學習網絡進行預訓練,得到預訓練深度學習網絡;
S3:應用預訓練深度學習網絡的最后n層的隱含特征作為中間變量,提取音素時長特征向量;
S4:將所述聲學特征和所述音素時長特征向量作為輸入,輸入到判別器進行訓練;
S5:應用音頻測試數據,重復步驟S1-S3,得到測試數據的聲學特征和音素時長特征向量,將測試數據的聲學特征和音素時長特征向量輸入到訓練好的判別器,得到測試語音的真偽檢測結果。
2.根據權利要求1所述的基于音素時長特征的虛假語音檢測方法,其特征在于,所述聲學特征包括:MFCC或者BFCC頻譜特征。
3.根據權利要求1所述的基于音素時長特征的虛假語音檢測方法,其特征在于,所述深度學習網絡包括:編碼器和解碼器兩部分。
4.根據權利要求3所述的基于音素時長特征的虛假語音檢測方法,其特征在于,所述最后n層的隱含特征為解碼器的最后n層的隱含特征。
5.根據權利要求4所述的基于音素時長特征的虛假語音檢測方法,其特征在于,所述n表示為預訓練深度學習網絡的最后n層,選取3~5層。
6.根據權利要求5所述的基于音素時長特征的虛假語音檢測方法,其特征在于,所述提取音素時長特征向量之前還包括:將最后n層的隱含特征進行拼接,得到拼接特征;在拼接特征中獲得與說話人無關的音素表示特征;
所述提取音素時長特征向量包括:通過音素表示特征提取出音素時長特征向量。
7.根據權利要求1所述的基于音素時長特征的虛假語音檢測方法,其特征在于,所述判別器采用ResNet50來構建。
8.根據權利要求1所述的基于音素時長特征的虛假語音檢測方法,其特征在于,所述得到測試語音的真偽檢測結果的具體方法為:鑒別為虛假的概率大于等于0.5的語音判別為虛假語音,對于虛假的概率小于0.5的語音判別為真實語音。
9.基于音素時長特征的虛假語音檢測裝置,其特征在于,所述裝置包括:聲學特征提取模塊、時長特征提取模塊和判別器;
聲學特征提取模塊從音頻訓練數據中提取聲學特征;
時長特征提取模塊為利用音頻訓練數據對深度學習網絡進行預訓練,得到預訓練深度學習網絡:應用預訓練深度學習網絡的最后n層的隱含特征作為中間變量,提取音素時長特征向量;
將所述聲學特征和所述音素時長特征向量作為輸入,輸入到判別器,得到語音的真偽檢測結果。
10.根據權利要求9所述的基于音素時長特征的虛假語音檢測裝置,其特征在于,所述預訓練深度學習網絡包括:編碼器和解碼器;所述最后n層的隱含特征為解碼器的最后n層的隱含特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110841276.2/1.html,轉載請聲明來源鉆瓜專利網。





