[發(fā)明專利]一種用于合成語音檢測的GRU-SVM深度學(xué)習(xí)模型的構(gòu)造方法在審
| 申請?zhí)枺?/td> | 202010034132.1 | 申請日: | 2020-01-14 |
| 公開(公告)號(hào): | CN111243621A | 公開(公告)日: | 2020-06-05 |
| 發(fā)明(設(shè)計(jì))人: | 王宏霞;黃婷;何沛松 | 申請(專利權(quán))人: | 四川大學(xué) |
| 主分類號(hào): | G10L25/30 | 分類號(hào): | G10L25/30;G10L25/51;G10L25/24;G06N3/08 |
| 代理公司: | 成都盈信專利代理事務(wù)所(普通合伙) 51245 | 代理人: | 崔建中 |
| 地址: | 610065 四*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 合成 語音 檢測 gru svm 深度 學(xué)習(xí) 模型 構(gòu)造 方法 | ||
本發(fā)明公開了一種用于合成語音檢測的GRU?SVM深度學(xué)習(xí)模型的構(gòu)造方法,包括步驟:提取訓(xùn)練語音每一幀的特征參數(shù);構(gòu)造訓(xùn)練語音的特征矩陣;構(gòu)造GRU?SVM深度學(xué)習(xí)模型;對GRU?SVM深度學(xué)習(xí)模型進(jìn)行softmax的回歸。門控循環(huán)單元(GRU)神經(jīng)網(wǎng)絡(luò)用于克服循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)學(xué)習(xí)信息長期依賴時(shí)產(chǎn)生的梯度消失和爆炸問題。結(jié)合支持向量機(jī)(SVM)在softmax層進(jìn)行分類之前起回歸作用,本發(fā)明提出的GRU?SVM深度學(xué)習(xí)模型能進(jìn)一步提高合成語音的檢測率。
技術(shù)領(lǐng)域
本發(fā)明涉及語音取證技術(shù)領(lǐng)域,特別是一種用于合成語音檢測的GRU-SVM深度學(xué)習(xí)模型的構(gòu)造方法。
背景技術(shù)
隨著人工智能時(shí)代的到來,人與人的交流方式逐漸多樣化。數(shù)字音頻作為最常用的交流媒介應(yīng)用于日常工作和學(xué)習(xí)中。通過各種移動(dòng)設(shè)備,人們可以完成對音頻的傳輸和接收來完成信息交換。與此同時(shí),語音合成技術(shù)的不斷發(fā)展。語音合成技術(shù),即將任意文本轉(zhuǎn)換成語音的技術(shù)。該技術(shù)如果結(jié)合深度學(xué)習(xí)方法的合成技術(shù)能夠很容易地合成出與某個(gè)目標(biāo)說話人相同說話特征的語音。目前許多識(shí)別技術(shù)都不能識(shí)別出這類合成語音與真實(shí)說話人說出的自然語音,并容易將合成的語音認(rèn)作自然語音,從而發(fā)生驗(yàn)證錯(cuò)誤。若犯罪分子將該技術(shù)應(yīng)用到實(shí)際場景中,將造成人員傷害與經(jīng)濟(jì)損失。為了解決這一問題人們提出了自動(dòng)說話人驗(yàn)證系統(tǒng),通過計(jì)算機(jī)利用人體所固有的生理特征或行為特征來進(jìn)行個(gè)人身份鑒定,是一種對收到的說話人語音信號(hào)進(jìn)行分析和提取,自動(dòng)地確定說話人是否在所建立的說話人集合里面,并確定說話人是誰的過程。
文獻(xiàn)“Speaker verification using Gaussian mixture model”(Jagtap,S.S.,Bhalke,D.G,International Conference on Pervasive Computing,pp.1–5,2015)提出了一種主流的機(jī)器學(xué)習(xí)分類器,該分類器使用高斯混合模型(GMM)進(jìn)行特征分類。文獻(xiàn)“Artificial neural networks as speech recognisers for dysarthric speech”(Shahamiri,S.R.,Salim,S.S.B.,Advanced Engineering Informatics 28(1),102-110,2014),Shahamiri等人已經(jīng)成功地將基于人工神經(jīng)網(wǎng)絡(luò)(ANN)的分類算法應(yīng)用于語音識(shí)別。以GMM為代表的機(jī)器學(xué)習(xí)分類器的平均識(shí)別錯(cuò)誤率始終保持在1%左右。基于神經(jīng)網(wǎng)絡(luò)模型的分類檢測算法在檢測已知攻擊時(shí)表現(xiàn)較好,但在檢測為止攻擊時(shí)表現(xiàn)稍差。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于合成語音檢測的GRU-SVM深度學(xué)習(xí)模型的構(gòu)造方法,以進(jìn)一步提高合成語音檢測的準(zhǔn)確性。
實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案為:
一種用于合成語音檢測的GRU-SVM深度學(xué)習(xí)模型的構(gòu)造方法,包括:
步驟一:提取訓(xùn)練語音每一幀的特征參數(shù),包括
1.1將訓(xùn)練語音解碼后進(jìn)行預(yù)處理,所述預(yù)處理包括預(yù)加重、分幀和加窗;
1.2通過快速傅里葉變換,將時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào),再取模后平方得到譜線能量;
1.3放入m維的Mel濾波器組,計(jì)算出通過Mel濾波器的能量;
1.4取對數(shù)倒譜后DCT變換,得到MFCC特征;
1.5提取MFCC特征的一階差分系數(shù)ΔMFCC,與MFCC特征組成2m維特征參數(shù)CC,
CC={(C1,C2,...Cm),(ΔC1,ΔC2,...ΔCm)},
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學(xué),未經(jīng)四川大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010034132.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:鐘擺式尿素結(jié)塊分離裝置
- 下一篇:一種新能源汽車充電樁充電接口





