[發(fā)明專利]一種基于卷積神經(jīng)網(wǎng)絡(luò)的偽裝語音識別方法在審
| 申請?zhí)枺?/td> | 201810214631.1 | 申請日: | 2018-03-15 |
| 公開(公告)號: | CN108806698A | 公開(公告)日: | 2018-11-13 |
| 發(fā)明(設(shè)計)人: | 康顯桂;梁惠欣 | 申請(專利權(quán))人: | 中山大學(xué) |
| 主分類號: | G10L17/18 | 分類號: | G10L17/18;G10L17/02;G10L17/04 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 卷積神經(jīng)網(wǎng)絡(luò) 偽裝 語音識別 準確率 預(yù)處理操作 測試數(shù)據(jù) 訓(xùn)練數(shù)據(jù) 原始語音 語音 分類 檢測 | ||
1.一種基于卷積神經(jīng)網(wǎng)絡(luò)的偽裝語音識別方法,其特征在于,包括以下步驟:
S1:選定語音庫并對語音庫進行平均律變調(diào),包括原始語音和偽裝語音,并將語音庫中的數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù);
S2:對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進行切割,同時對切割后的音頻片段進行預(yù)加重;
S3:利用短時傅里葉變換(STFT)對預(yù)加重后的音頻進行預(yù)處理,把一維數(shù)據(jù)變換為二維矩陣的形式;
S4:將訓(xùn)練數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò)中進行訓(xùn)練,得到訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型;
S5:將經(jīng)過預(yù)處理后的測試數(shù)據(jù)輸入到訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)中進行二分類,得到分類的準確率。
2.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)的偽裝語音識別方法,其特征在于,步驟S1中所述語音庫包括TIMIT,NIST,UME這三個語音庫。
3.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)的偽裝語音識別方法,其特征在于,步驟S1中所述平均律變調(diào)包括對語音庫進行f=2α/12.fo12平均律變調(diào),其中,f是指變調(diào)后語音的音高,fo是指原始語音的音高,α表示偽裝因子,其取值范圍為[-11,11]。當(dāng)α取正數(shù)時,音調(diào)升高,頻譜延長;當(dāng)α取負數(shù)時,音調(diào)降低,頻譜壓縮。
4.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)的偽裝語音識別方法,其特征在于,步驟S2所述對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進行切割包括將訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)切割為長度為1秒的語音片段。
5.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)的偽裝語音識別方法,其特征在于,步驟S2所述預(yù)加重包括對所有語音進行加重因子為0.98的加重操作。
6.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)的偽裝語音識別方法,其特征在于,步驟S3中所述短時傅里葉變換中窗口長度為256,重復(fù)點數(shù)為96,F(xiàn)FT長度1024。
7.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)的偽裝語音識別方法,其特征在于,步驟S3所述短時傅里葉變換通過spectrogram函數(shù)進行。
8.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)的偽裝語音識別方法,其特征在于,步驟S4所述卷積神經(jīng)網(wǎng)絡(luò)為4層的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),同時具有3層pooling層,激活函數(shù)選擇ReLu函數(shù),以及在第一層卷積層之后加上歸一化層,即BN層,最后使用Softmax層進行分類,而在Softmax層前加上一個Dropout層,用來減少參數(shù),防止過擬合的現(xiàn)象。
9.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)的偽裝語音識別方法,其特征在于,步驟S5所述的準確率的計算公式為
d=(Sd+Od)/(S+O),其中S表示的是測試數(shù)據(jù)中偽裝語音的個數(shù),O表示的是測試數(shù)據(jù)中原始語音的個數(shù),Sd表示的是從偽裝語音中判斷為偽裝語音的個數(shù),Od表示的是從原始語音中判斷為原始語音的個數(shù),等式左邊的d就是通過計算得到的準確率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中山大學(xué),未經(jīng)中山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810214631.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 終端卷積神經(jīng)網(wǎng)絡(luò)的處理方法、裝置、存儲介質(zhì)及處理器
- 一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像深度估計方法
- 卷積神經(jīng)網(wǎng)絡(luò)的生成方法及裝置
- 一種卷積神經(jīng)網(wǎng)絡(luò)硬件模塊部署方法
- 卷積神經(jīng)網(wǎng)絡(luò)的處理方法、裝置、設(shè)備及存儲介質(zhì)
- 一種卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法及裝置
- 一種基于通道數(shù)搜索卷積神經(jīng)網(wǎng)絡(luò)的方法
- 卷積神經(jīng)網(wǎng)絡(luò)處理方法、裝置和電子系統(tǒng)
- 一種基于空洞卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的聲音事件檢測方法
- 基于稀疏卷積神經(jīng)網(wǎng)絡(luò)的目標檢測方法及檢測裝置





