[發(fā)明專利]基于矢量量化和高斯混合模型的說話人識別系統(tǒng)在審
| 申請?zhí)枺?/td> | 201710003175.1 | 申請日: | 2017-01-03 |
| 公開(公告)號: | CN108269573A | 公開(公告)日: | 2018-07-10 |
| 發(fā)明(設(shè)計)人: | 楊育斌;沈金偉;柯宗貴 | 申請(專利權(quán))人: | 藍盾信息安全技術(shù)有限公司 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510665 廣東省廣州市廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 高斯混合模型 矢量量化 說話人識別系統(tǒng) 倒譜系數(shù) 混合模型 梅爾頻率 信息特征 | ||
本發(fā)明公開了一種基于矢量量化和高斯混合模型的說話人識別系統(tǒng),該系統(tǒng)采用梅爾頻率倒譜系數(shù)(MFCC)作為說話人的信息特征,對不同說話人的MFCC特征值建立高斯混合模型(GMM)和矢量量化(VQ)模型的混合模型系統(tǒng),從而達到對說話人進行辨認或者確認的目的。
技術(shù)領(lǐng)域
本發(fā)明屬于語音識別技術(shù)領(lǐng)域,特別涉及基于矢量量化和高斯混合模型的說話人識別系統(tǒng)。
背景技術(shù)
在說話人識別系統(tǒng)中特征提取是最重要的一環(huán),特征提取表示從說話人的語音信號中提取出表示說話人個性的基本特征,目前在說話人識別中使用最多的特征是LPC倒譜系數(shù)、基音周期、MFCC、線性預(yù)測系數(shù)LPC等。
從語音信號中提取到特征向量后,就需要針對特征向量建立匹配模型。目前根據(jù)各種特征而使用到的模式匹配方法包括概率統(tǒng)計方法、動態(tài)時間規(guī)整方法、VQ、GMM、人工神經(jīng)網(wǎng)絡(luò)方法等。VQ的優(yōu)點是識別速度快,識別效果較好;GMM的優(yōu)點不需要時間調(diào)整,可節(jié)約判決時的計算時間和存儲量。
發(fā)明內(nèi)容
本發(fā)明的目的是通過基于矢量量化和高斯混合模型的說話人識別系統(tǒng),實現(xiàn)現(xiàn)實生活中安全訪問、身份鑒定等應(yīng)用場景里需要辨識使用人身份的實際需求,通過從說話人的一段語音中提取個人信息特征,然后對這些個人特征的分析和識別,從而達到對說話人進行辨認或者確認的目的。
本系統(tǒng)包含訓(xùn)練階段和識別階段兩個階段。
訓(xùn)練階段:每一個說話人說出一段文字材料后獲得的語音信號(定義為訓(xùn)練樣本),對每一個訓(xùn)練樣本建立匹配模型,每一個說話者對應(yīng)一個模型。具體流程如下:
(1)原始數(shù)據(jù)預(yù)處理。錄音收集到說話人的原始語音數(shù)據(jù)后,需要經(jīng)過預(yù)處理。預(yù)處理包括斷點檢測、預(yù)加重、分幀、加窗。
(2)特征值提取。本方案選取MFCC作為特征向量。將預(yù)處理后的語音經(jīng)過快速傅里葉變換后由時域信號變?yōu)轭l域信號,然后取平方值、經(jīng)過三角形濾波器組后取對數(shù)、再經(jīng)過DCT變換,得到MFCC。
(3)建模。本方案的匹配模型包括GMM和VQ。
識別階段:從待識人的語音數(shù)據(jù)(定義為測試樣本)提取特征值,提取特征值中的參數(shù)與每一個匹配模型中的參數(shù)進行比較,通過每一個匹配模型計算得出待識別人的概率值,若某模型計算得的概率值最高并且該概率值高于給定閾值,則標(biāo)簽待識人為該模型的說話者。
(1)原始數(shù)據(jù)預(yù)處理。錄音收集到待識別人的原始語音數(shù)據(jù)后,需要經(jīng)過預(yù)處理。預(yù)處理包括斷點檢測、預(yù)加重、分幀、加窗。
(2)特征值提取。將預(yù)處理后的語音經(jīng)過快速傅里葉變換后由時域信號變?yōu)轭l域信號,然后取平方值、經(jīng)過三角形濾波器組后取對數(shù)、再經(jīng)過DCT變換,得到MFCC
(3)識別。設(shè)待識別的MFCC特征矢量為Z。
本發(fā)明技術(shù)方案帶來的有益效果:
本技術(shù)方案同時使用兩個識別模型對待識別特征進行辨識,能有效地改善單個識別模型造成的識別率正確率低的問題。此外,假如測試樣本是未訓(xùn)練的說話人的語音,單個識別模型的系統(tǒng)只能通過閾值來進行判斷,而本方案的識別系統(tǒng)則可以通過兩個模型的識別結(jié)果來進行判斷,當(dāng)且僅當(dāng)識別結(jié)果一致時,才將識別結(jié)果標(biāo)簽該測試樣本,否則標(biāo)簽該樣本為未訓(xùn)練樣本(即實際場景中的陌生人)。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
圖1是本發(fā)明提出的MFCC特征提取流程示意圖;
具體實施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于藍盾信息安全技術(shù)有限公司,未經(jīng)藍盾信息安全技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710003175.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于抗噪聲語音識別的在線參數(shù)直方圖正態(tài)化
- 一種用于語音測謊系統(tǒng)中的稀疏譜特征提取方法
- 一種回放語音的聲紋識別方法、裝置及存儲介質(zhì)
- 一種融合Bi-LSTM和WaveNet的語音轉(zhuǎn)換方法
- 一種基于BP網(wǎng)絡(luò)的噪聲分類方法
- 聯(lián)合時頻域擴張卷積的耳語音向正常音轉(zhuǎn)換方法及其裝置
- 設(shè)備的喚醒方法及裝置、電子設(shè)備、存儲介質(zhì)
- 利用倒譜系數(shù)分析震動信號評價煤巖穩(wěn)定性的方法和裝置
- 利用語音識別的煤巖失穩(wěn)前兆信息特征提取的方法和裝置
- 車輛外后視鏡鏡片調(diào)節(jié)電機噪音檢測方法、系統(tǒng)及介質(zhì)





