[發明專利]一種基于深度密集網絡的語音變形檢測方法在審
| 申請號: | 202110303939.5 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN113077814A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 王泳;張奧運 | 申請(專利權)人: | 廣東技術師范大學 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/30;G10L25/18;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 廣東有知貓知識產權代理有限公司 44681 | 代理人: | 胡強 |
| 地址: | 510665 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 密集 網絡 語音 變形 檢測 方法 | ||
1.一種基于深度密集網絡的語音變形檢測方法,其特征在于,主要包括以下步驟:
首先,構建基于卷積神經網絡的深度密集學習網絡結構,所述網絡結構的每個卷積層都會接受其前面所有卷積層作為其額外的輸入,并且每個卷積層的輸入都是其上一個卷積層的輸出;
其次,使用小批迭代隨機梯度下降對所述網絡結構的交叉熵誤差進行訓練,所述網絡結構在輸入時頻圖前,會對語音數據進行預處理,假設x0是原始語音的音高,a是偽裝因子,x為變形語音,可以得出
x=2α/12·x0;
偽裝因子的取值為[-11,11]中的任意整數,之后再對數據進行標準化處理,標準化公式為
其中E[x]是特征均值,Var[x]是特征方差;
第三,將待測語音的時頻特征輸入到已經訓練好的深度密集網絡結構中,網絡結構中softmax層通過偽裝因子來判斷待測語音的真偽并識別出偽裝語音對應使用的偽裝工具,從而輸出檢測結果。
2.根據權利要求1所述的一種基于深度密集網絡的語音變形檢測方法,其特征在于,所述softmax層在檢測輸出前加入了一個全局均值池化層。
3.根據權利要求1所述的一種基于深度密集網絡的語音變形檢測方法,其特征在于,所述偽裝工具包括Audacity、CoolEdit、PRAAT和RTISI。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東技術師范大學,未經廣東技術師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110303939.5/1.html,轉載請聲明來源鉆瓜專利網。





