[發(fā)明專利]基于MFCC和改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的聲紋識(shí)別方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201810963310.1 | 申請(qǐng)日: | 2018-08-22 |
| 公開(公告)號(hào): | CN108847244A | 公開(公告)日: | 2018-11-20 |
| 發(fā)明(設(shè)計(jì))人: | 高明柯;王熠;周燕瓊;邵培南;夏定江;白利娟;李旭波;崔璨;王燦 | 申請(qǐng)(專利權(quán))人: | 華東計(jì)算技術(shù)研究所(中國電子科技集團(tuán)公司第三十二研究所) |
| 主分類號(hào): | G10L17/02 | 分類號(hào): | G10L17/02;G10L17/04;G10L17/18;G10L25/24 |
| 代理公司: | 上海段和段律師事務(wù)所 31334 | 代理人: | 李佳俊;郭國中 |
| 地址: | 201800 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 特征參數(shù) 語音信號(hào) 改進(jìn) 聲紋識(shí)別 迭代 模型訓(xùn)練 隨機(jī)梯度 特征提取 訓(xùn)練效果 錯(cuò)誤率 有效地 聲紋 應(yīng)用 | ||
本發(fā)明提供了一種基于MFCC和改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的聲紋識(shí)別方法及系統(tǒng),包括:采用MFCC對(duì)語音信號(hào)進(jìn)行特征提取,得到MFCC特征參數(shù);將語音信號(hào)的MFCC特征參數(shù)輸入改進(jìn)BP神經(jīng)網(wǎng)絡(luò)中進(jìn)行模型訓(xùn)練;從待識(shí)別語音信號(hào)中提取MFCC特征參數(shù),輸入訓(xùn)練好的改進(jìn)BP神經(jīng)網(wǎng)絡(luò)中計(jì)算,將錯(cuò)誤率最低值所對(duì)應(yīng)的計(jì)算結(jié)果作為最終識(shí)別結(jié)果。本發(fā)明利用MFCC和改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,能夠更有效地識(shí)別聲紋,以隨機(jī)梯度下降代替梯度下降,在相同的迭代次數(shù)的情況下,所耗費(fèi)的時(shí)間更少,相同的時(shí)間內(nèi),迭代的次數(shù)更多,可以達(dá)到更好的訓(xùn)練效果,具有廣泛的應(yīng)用前景。
技術(shù)領(lǐng)域
本發(fā)明涉及聲紋識(shí)別領(lǐng)域,具體地,涉及基于MFCC和改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的聲紋識(shí)別方法及系統(tǒng)。
背景技術(shù)
MFCC:梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients),將時(shí)域的語音變?yōu)轭l域,對(duì)頻域的信號(hào)進(jìn)行分段濾波,得出不同頻率段的占比,所得到的占比系數(shù)組成的矩陣即梅爾倒頻譜系數(shù)。
BP神經(jīng)網(wǎng)絡(luò):反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation),一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)。
SGD:隨機(jī)梯度下降(Stochastic Gradient Descent),一種優(yōu)化方法,屬于梯度下降的一種,適用于大規(guī)模的問題。
聲紋識(shí)別,又稱說話人識(shí)別,是指通過對(duì)聲紋語音信號(hào)的分析處理,自動(dòng)識(shí)別說話人身份的技術(shù)。語音信號(hào)是由不同的發(fā)音器官隨時(shí)間而改變位置而產(chǎn)生的一系列聲音,鑒于聲音的特性與個(gè)體的生理解剖結(jié)構(gòu)相關(guān),因此不同人所發(fā)出的聲音不同,同時(shí)可以根據(jù)這一點(diǎn)進(jìn)行說話人身份識(shí)別。聲紋識(shí)別的基本方法是通過不同的語音信號(hào)提取聲紋的特征,將特征進(jìn)行訓(xùn)練,并在得到的識(shí)別模型中進(jìn)行推理。
目前常用的聲紋識(shí)別的主流方法有動(dòng)態(tài)時(shí)間規(guī)整(DTW)、隱馬爾科夫剛理論(HMM)、矢量量化(VQ)等。然而,這些方法都具有識(shí)別的準(zhǔn)確率較低、需要進(jìn)行大量的計(jì)算、缺乏動(dòng)態(tài)的訓(xùn)練或者過度依賴原話者等缺點(diǎn)。
BP神經(jīng)網(wǎng)絡(luò)是一種誤差反向傳播的多層前饋網(wǎng)絡(luò),具有大規(guī)模并行處理、分布式信息存儲(chǔ)、良好的自組織和自學(xué)習(xí)能力及原理簡單、容易實(shí)現(xiàn)等優(yōu)點(diǎn)。但其也存在固有的缺陷,如容易過擬合,收斂速度慢等。在傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)中使用的梯度下降是一種全局最優(yōu)解,但在每個(gè)迭代步驟中,要求使用所有的訓(xùn)練數(shù)據(jù)。當(dāng)樣本數(shù)量很大時(shí),該方法的迭代速度較低,處理時(shí)間越來越長。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供基于MFCC和改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的聲紋識(shí)別方法及系統(tǒng)。
根據(jù)本發(fā)明提供的一種基于MFCC和改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的聲紋識(shí)別方法,包括:
語音處理步驟:采用MFCC對(duì)語音信號(hào)進(jìn)行特征提取,得到MFCC特征參數(shù);
模型訓(xùn)練步驟:將語音信號(hào)的MFCC特征參數(shù)輸入改進(jìn)BP神經(jīng)網(wǎng)絡(luò)中進(jìn)行模型訓(xùn)練;
語音識(shí)別步驟:從待識(shí)別語音信號(hào)中提取MFCC特征參數(shù),輸入訓(xùn)練好的改進(jìn)BP神經(jīng)網(wǎng)絡(luò)中計(jì)算,將錯(cuò)誤率最低值所對(duì)應(yīng)的計(jì)算結(jié)果作為最終識(shí)別結(jié)果。
較佳的,所述語音處理步驟包括:
預(yù)加重子步驟:將語音信號(hào)通過濾波器提升高頻部分;
分幀子步驟:對(duì)預(yù)加重后的語音信號(hào)進(jìn)行分幀;
漢明窗子步驟:將分幀后的語音信號(hào)的每幀乘以漢明窗;
快速傅里葉變換子步驟:對(duì)漢明窗后的每一幀語音信號(hào)進(jìn)行快速傅里葉變換,得到能量譜;
三角帶通濾波子步驟:將能量普輸入三角帶通濾波器組;
對(duì)數(shù)能量計(jì)算子步驟:計(jì)算每個(gè)三角帶通濾波器輸出的對(duì)數(shù)能量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華東計(jì)算技術(shù)研究所(中國電子科技集團(tuán)公司第三十二研究所),未經(jīng)華東計(jì)算技術(shù)研究所(中國電子科技集團(tuán)公司第三十二研究所)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810963310.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種視頻數(shù)據(jù)快速特征檢索的方法及系統(tǒng)
- 用于評(píng)估對(duì)象的整體特征狀態(tài)的方法和裝置
- 一種特征參數(shù)的調(diào)整方法、裝置和電子設(shè)備
- 廣告投放方法和系統(tǒng)
- 一種信息提示的方法及裝置
- 點(diǎn)讀對(duì)象處理方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種用于對(duì)發(fā)票變票虛開行為進(jìn)行監(jiān)控的方法及系統(tǒng)
- 一種將語音轉(zhuǎn)換為文字的方法、裝置及系統(tǒng)
- 檢測數(shù)據(jù)處理方法
- 面向家居多特征參數(shù)融合的聲紋識(shí)別方法
- 信息處理設(shè)備、方法和記錄媒體
- 語音信號(hào)處理電路和裝置
- 一種判斷說話人數(shù)目的方法及系統(tǒng)
- 基于人工智能的語音信號(hào)處理方法、裝置及存儲(chǔ)介質(zhì)
- 環(huán)境語音采集處理方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 語音識(shí)別方法、裝置、電子設(shè)備以及存儲(chǔ)介質(zhì)
- 語音信號(hào)的處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 語音信號(hào)處理方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種語音信號(hào)處理方法、裝置、介質(zhì)和設(shè)備
- 一種雙路語音同傳的收發(fā)系統(tǒng)
- 一種基于網(wǎng)絡(luò)動(dòng)態(tài)負(fù)載均衡的聲紋識(shí)別系統(tǒng)及其識(shí)別方法
- 一種聲紋識(shí)別相似度評(píng)分的方法和裝置
- 聲紋識(shí)別系統(tǒng)、方法、裝置及電子設(shè)備
- 聲紋識(shí)別的訓(xùn)練方法、裝置、終端及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 聲紋識(shí)別方法、裝置、移動(dòng)終端及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 聲紋識(shí)別方法及裝置、計(jì)算機(jī)存儲(chǔ)介質(zhì)、電子設(shè)備
- 一種聲紋識(shí)別自動(dòng)寵物門
- 基于聲紋庫的聲紋識(shí)別方法、主控節(jié)點(diǎn)及計(jì)算節(jié)點(diǎn)
- 一種基于聲譜圖的聲紋識(shí)別集成模型的防御方法及防御裝置
- 聲紋識(shí)別方法、裝置、存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備





