[發明專利]基于神經網絡的聲紋識別系統的最優碼本設計方法無效
| 申請號: | 201210314067.3 | 申請日: | 2012-08-30 |
| 公開(公告)號: | CN102800316A | 公開(公告)日: | 2012-11-28 |
| 發明(設計)人: | 李勇明;施忠繼;王品;鄒雪;梅林 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L17/00 |
| 代理公司: | 重慶市前沿專利事務所 50211 | 代理人: | 郭云 |
| 地址: | 400044 *** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 神經網絡 聲紋 識別 系統 最優 設計 方法 | ||
技術領域
本發明屬于語音信號處理中的聲紋識別技術,尤其涉及一種基于神經網絡的聲紋識別系統的最優碼本設計方法。
背景技術
在當今信息時代的前提下,作為信息安全的重要組成部分之一的身份識別技術引來了新的挑戰。傳統的密碼識別由于算法的局限性與硬軟件解密技術的提升已經展現了它的弊端,而作為身份識別的新技術之一,聲紋識別技術,因其獨特的方便性、經濟性及準確性等優點,越來越受到人的重視。
聲紋識別,就是從說話人的一段語音中提取出說話人的個性特征,通過對個人特征的分析與識別,從而達到對說話人進行辨認或者確認的目的。聲紋識別的基本依據在于每個人獨特的聲道特性和發音特點,使得說話人的語音信號具有區別于其他說話人的特征,因此說話人識別并不注意語音信號的內容,而是希望從語音信號中提取個人的特征。
聲紋識別的關鍵技術,主要是語音信號的特征參數提取和最優碼本的建立。最常用的語音信號的特征參數有兩種:一種是根據人耳對不同頻率的語音信號的敏感程度提取的梅爾頻率倒譜系數(Mel-Frequency?Cepstrum?Coefficients,MFCC),反映了說話人語音的聽覺頻率的非線性特性,在噪聲中環境中能體現優勢;另一種是根據語音信號的全極點模型得到的線性預測倒譜系數(Linear?Prediction?Cepstrum?Coefficients,LPCC),反映了說話人聲道的生理結構差異。MFCC的分析著眼于人耳的聽覺特性,Mel頻率尺度更符合人耳的聽覺特性,能很好的反映語音的特性。LPCC特征參數的提取,是基于語音信號為自回歸信號的假設,利用線性預測分析從而獲得倒譜參數。LPCC參數的最大優點是它能夠極為精確地估計語音參數,用很少的參數有效而又正確地表現語音波形及其頻譜的性質,而且計算效率高,對元音有較好的表示能力,它缺點在于不能體現輔音的個性特征,抗噪聲性能較差,識別率容易受環境的影響。
中國專利申請200410000055.9,其名稱為:電話信道說話人聲紋識別系統,公開號CN1556522,該專利文獻對聲紋識別系統的系統模型以及工作原理作了描述,同時對LPCC特征參數的提取方法以及如何在聲紋識別系統中引入神經網絡模型作了詳細說明。
參考文獻:郭華.基于神經網絡的聲紋識別系統的設計與實現.上海交通大學工程碩士專業學位論文.2008.該文獻對聲紋識別技術的研究現狀做了詳細總結,同時對聲紋識別技術中的MFCC以及LPCC參數的提取、矢量量化法、遺傳算法、以及BP神經網絡模型等關鍵技術作了詳細描述,作者為了使得聲紋識別效果最優,還將粒子群算法引入神經網絡進行優化。
綜上所述,聲紋識別技術目前已經得到廣泛的應用和發展,大量學者對聲紋識別的準確率以及如何應用做了研究,但是往往都是針對單一算法進行優化或者改進,目前最優碼本的設計方法主要采用態時間規整(DTW)、矢量量化(VQ)、高斯混合模型(GMM)、隱馬爾可夫模型(HMM)、人工神經網絡方法(ANN)、支持向量機(SVM)、動態貝葉斯網絡(DBN)等技術。但現有的系統中往往都只采用了一種單獨的技術,而各種技術往往都是針對某一特定的應用場景具有較好的識別率,當系統的應用場景發生改變時,自適應能力不強。
發明內容
為了克服現有技術中系統采用單一技術生成碼本導致適應能力不強的缺陷,本發明提出一種基于神經網絡的聲紋識別系統的最優碼本設計方法,通過采用多種算法同時生成多個碼本,然后根據多個碼本的識別正確率的高低來選擇最優碼本,從而提高系統的自適應能力和穩定性。
為達到上述目的,本發明所采用的具體技術方案如下:
一種基于神經網絡的聲紋識別系統的最優碼本設計方法,包括:
S1:用于語音信號輸入的步驟;
S2:對輸入的語音信號段進行預處理的步驟;
S3:對預處理后的語音信號段提取特征參數的步驟;
其關鍵在于,還包括:
S4:用于生成三個初始碼本的步驟,該步驟中第一初始碼本采用矢量量化法生成,第二初始碼本采用遺傳算法生成,第三初始碼本先采用矢量量化法,再采用遺傳算法生成;
S5:用于神經網絡訓練的步驟,該步驟中利用神經網絡分別對三個初始碼本進行訓練,得到第一初始碼本識別正確率、第二初始碼本識別正確率以及第三初始碼本識別正確率;
S6:用于選擇最優碼本的步驟,該步驟中選擇三個初始碼本中識別正確率最高的一個初始碼本作為輸入的語音信號段的最優碼本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210314067.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:三相整流模塊
- 下一篇:一種用于硅通孔技術的預浸潤裝置





