[發(fā)明專利]一種用于合成語音檢測的GRU-SVM深度學(xué)習(xí)模型的構(gòu)造方法在審
| 申請?zhí)枺?/td> | 202010034132.1 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111243621A | 公開(公告)日: | 2020-06-05 |
| 發(fā)明(設(shè)計)人: | 王宏霞;黃婷;何沛松 | 申請(專利權(quán))人: | 四川大學(xué) |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30;G10L25/51;G10L25/24;G06N3/08 |
| 代理公司: | 成都盈信專利代理事務(wù)所(普通合伙) 51245 | 代理人: | 崔建中 |
| 地址: | 610065 四*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 合成 語音 檢測 gru svm 深度 學(xué)習(xí) 模型 構(gòu)造 方法 | ||
1.一種用于合成語音檢測的GRU-SVM深度學(xué)習(xí)模型的構(gòu)造方法,其特征在于,包括:
步驟一:提取訓(xùn)練語音每一幀的特征參數(shù),包括
1.1將訓(xùn)練語音解碼后進(jìn)行預(yù)處理,所述預(yù)處理包括預(yù)加重、分幀和加窗;
1.2通過快速傅里葉變換,將時域信號轉(zhuǎn)換為頻域信號,再取模后平方得到譜線能量;
1.3放入m維的Mel濾波器組,計算出通過Mel濾波器的能量;
1.4取對數(shù)倒譜后DCT變換,得到MFCC特征;
1.5提取MFCC特征的一階差分系數(shù)ΔMFCC,與MFCC特征組成2m維特征參數(shù)CC,CC={(C1,C2,...Cm),(ΔC1,ΔC2,...ΔCm)},
其中,Cm表示第m維Mel濾波器輸出的MFCC特征,ΔCm表示第m維ΔMFCC;
步驟二:構(gòu)造訓(xùn)練語音的特征矩陣,包括
2.1將每一個訓(xùn)練語音的所有幀的2m維特征參數(shù)CC構(gòu)成一個特征矩陣;其中,幀數(shù)最大的那個訓(xùn)練語音的特征矩陣為L行2m列,L為其幀數(shù);
2.2將幀數(shù)小于L的訓(xùn)練語音的特征矩陣,進(jìn)行補(bǔ)0操作,使其特征矩陣為L行2m列;
步驟三:構(gòu)造GRU-SVM深度學(xué)習(xí)模型,包括
3.1將每一個訓(xùn)練語音的特征序列(x1,x2...xt-1,xt)輸入到具有3層隱藏層的GRU神經(jīng)網(wǎng)絡(luò),依次計算相應(yīng)的隱藏層,得到輸出向量(y1,y2,...yt-1,yt);所述訓(xùn)練語音的特征序列(x1,x2...xt-1,xt)中,x1為訓(xùn)練語音的特征矩陣的第一行,x2為訓(xùn)練語音的特征矩陣的第二行,…,xt為訓(xùn)練語音的特征矩陣的第L行;
3.2將GRU的輸出向量(y1,y2,...yt-1,yt)的yt輸入到SVM,完成SVM回歸,得到GRU-SVM深度學(xué)習(xí)模型;
步驟四:對GRU-SVM深度學(xué)習(xí)模型進(jìn)行softmax的回歸,對回歸后的輸出進(jìn)行交叉熵?fù)p失的計算,并通過最小化損失的方法進(jìn)行優(yōu)化,得到優(yōu)化后的GRU-SVM深度學(xué)習(xí)模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學(xué),未經(jīng)四川大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010034132.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:鐘擺式尿素結(jié)塊分離裝置
- 下一篇:一種新能源汽車充電樁充電接口





