[發(fā)明專利]一種基于BP神經(jīng)網(wǎng)絡(luò)的說(shuō)話人識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 201410270239.0 | 申請(qǐng)日: | 2014-06-18 |
| 公開(kāi)(公告)號(hào): | CN104008751A | 公開(kāi)(公告)日: | 2014-08-27 |
| 發(fā)明(設(shè)計(jì))人: | 周婷婷;李燕萍 | 申請(qǐng)(專利權(quán))人: | 周婷婷 |
| 主分類(lèi)號(hào): | G10L17/00 | 分類(lèi)號(hào): | G10L17/00;G10L17/02;G10L17/04;G10L17/18 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 210003 江蘇省南京市新模范馬*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 bp 神經(jīng)網(wǎng)絡(luò) 說(shuō)話 識(shí)別 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及說(shuō)話人識(shí)別技術(shù),特別是涉及一種基于BP神經(jīng)網(wǎng)絡(luò)的說(shuō)話人識(shí)別方法。
背景技術(shù)
說(shuō)話人識(shí)別(Speaker?Recognition,SR)又稱話者識(shí)別,是指通過(guò)對(duì)說(shuō)話人語(yǔ)音信號(hào)的分析處理,自動(dòng)確認(rèn)說(shuō)話人的技術(shù)。其綜合了生理學(xué)、語(yǔ)音學(xué)、數(shù)字信號(hào)處理、模式識(shí)別、人工智能等學(xué)科知識(shí)的一個(gè)研究課題,以獨(dú)特的方便性、經(jīng)濟(jì)性和準(zhǔn)確性等優(yōu)勢(shì),在相關(guān)領(lǐng)域內(nèi)發(fā)揮著重要作用,并有著廣闊的市場(chǎng)背景。說(shuō)話人識(shí)別的基本原理,是利用說(shuō)話人的語(yǔ)音為每個(gè)說(shuō)話人建立一個(gè)能夠描述此說(shuō)話人特點(diǎn)的模型,作為此說(shuō)話人語(yǔ)音特征參數(shù)的標(biāo)準(zhǔn)模板,然后針對(duì)測(cè)試的語(yǔ)音信號(hào)進(jìn)行比對(duì),實(shí)現(xiàn)判別說(shuō)話人身份的目的。
說(shuō)話人的個(gè)性特征一定程度上體現(xiàn)在說(shuō)話人的發(fā)音聲道變化上,即聲道特征可以更好地對(duì)說(shuō)話人進(jìn)行識(shí)別。基于聲道的特征主要有:(1)美爾倒譜系數(shù)(Mel-frequency?CepstralCoefficients,MFCC),是基于聽(tīng)覺(jué)系統(tǒng)的臨界帶效應(yīng)、在Mel標(biāo)度頻率域提取出來(lái)的一種倒譜參數(shù)。它能夠比較充分利用人耳這種特殊的感知特性,這種特征具有比較強(qiáng)的魯棒性,得到了廣泛應(yīng)用。(2)線性預(yù)測(cè)倒譜系數(shù)(LinearPredictionCepstrum?Coefficient,LPCC),1947年維納首次提出了線性預(yù)測(cè)這一術(shù)語(yǔ),而板倉(cāng)等人在1967年首先將線性預(yù)測(cè)技術(shù)應(yīng)用到了語(yǔ)音分析和合成中。LPCC是最早被應(yīng)用到語(yǔ)音識(shí)別中的一種倒譜參數(shù),其主要優(yōu)點(diǎn)是比較徹底地去掉了語(yǔ)音產(chǎn)生過(guò)程中的激勵(lì)信息,主要反映聲道響應(yīng),計(jì)算量小,并且對(duì)元音有較好地描述能力,而且往往只需要十幾個(gè)倒譜系數(shù)就能較好地描述語(yǔ)音的共振峰特性,因此在說(shuō)話人識(shí)別中得到了良好的應(yīng)用。
在語(yǔ)音技術(shù)研究及應(yīng)用領(lǐng)域,語(yǔ)音信號(hào)的識(shí)別算法有三種:基于聲道模型和語(yǔ)音知識(shí)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。基于聲道模型和語(yǔ)音知識(shí)方面的研究雖然起步較早,但由于其復(fù)雜性,現(xiàn)階段沒(méi)有取得很好的實(shí)用效果。模板匹配的方法有動(dòng)態(tài)時(shí)間規(guī)整(DTW)、隱馬爾科夫(HMM)理論、矢量量化(VQ)技術(shù),這些算法在噪聲環(huán)境下干擾能力差,不能達(dá)到良好的識(shí)別效果。人工神經(jīng)網(wǎng)絡(luò)方法具有自適應(yīng)性、并進(jìn)行性、魯棒性、容錯(cuò)性和學(xué)習(xí)特性,其強(qiáng)大的分類(lèi)能力和輸入-輸出映射能力在語(yǔ)音識(shí)別中都極具吸引力。
反向傳播(BackPropagation,BP)網(wǎng)絡(luò)是一種誤差逆向傳播算法訓(xùn)練的多層前饋網(wǎng)絡(luò),具有大規(guī)模并行處理、分布式信息存儲(chǔ)、良好的自組織自學(xué)習(xí)能力及原理簡(jiǎn)單、容易實(shí)現(xiàn)等優(yōu)點(diǎn)。但其也存在固有的缺陷:容易陷入局部極小,收斂速度慢,網(wǎng)絡(luò)泛化能力較弱。而遺傳算法作為一種全局優(yōu)化算法,可以快速的搜索出解空間中的全體,而不會(huì)出現(xiàn)落入局部最優(yōu)解的下降陷阱,同時(shí)由于遺傳算法具有分布式計(jì)算的特點(diǎn),在實(shí)際求解時(shí)可以加快速度,且比傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的預(yù)測(cè)精度。并且預(yù)測(cè)的均方誤差也較小。
發(fā)明內(nèi)容
本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于BP神經(jīng)網(wǎng)絡(luò)的說(shuō)話人識(shí)別方法。
本發(fā)明的目的可以通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):一種基于BP神經(jīng)網(wǎng)絡(luò)的說(shuō)話人識(shí)別方法,其步驟是:分為語(yǔ)音訓(xùn)練階段和語(yǔ)音識(shí)別階段兩個(gè)步驟;其特征在于:所述語(yǔ)音訓(xùn)練階段的步驟是:首先對(duì)說(shuō)話人語(yǔ)音進(jìn)行語(yǔ)音訓(xùn)練,獲取說(shuō)話人語(yǔ)音信號(hào),并得到語(yǔ)音預(yù)處理信號(hào)。采用MFCC語(yǔ)音參數(shù)提取法對(duì)語(yǔ)音預(yù)處理信號(hào)進(jìn)行特征提取,求得說(shuō)話人的特征參數(shù);然后采用PSO-BP神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,經(jīng)過(guò)訓(xùn)練后的模型,建立和優(yōu)化PSO-BP神經(jīng)網(wǎng)絡(luò)模型庫(kù)。2.語(yǔ)音識(shí)別時(shí),采用和語(yǔ)音訓(xùn)練階段時(shí)一樣的方法,從待識(shí)別的語(yǔ)音中提取出語(yǔ)音特征。在BP神經(jīng)網(wǎng)絡(luò)中輸入上述特征參數(shù),然后分別調(diào)用模型庫(kù)中每個(gè)人已保存好的網(wǎng)絡(luò)權(quán)值;并由pso-BP流程算法計(jì)算輸出結(jié)果,將輸出的結(jié)果與數(shù)據(jù)庫(kù)中的期望識(shí)別身份逐一進(jìn)行比較,將識(shí)別誤差最小的那個(gè)身份作為最后的識(shí)別結(jié)果。
本發(fā)明的有益效果是:本發(fā)明利用MFCC和BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,本發(fā)明公開(kāi)的說(shuō)話人識(shí)別方法能夠更有效的識(shí)別說(shuō)話人,本發(fā)明以標(biāo)準(zhǔn)反向傳播算法(Back?Propagation)BP神經(jīng)網(wǎng)絡(luò)作為參考對(duì)象,通過(guò)使用粒子群算法來(lái)優(yōu)化BP神經(jīng)網(wǎng)絡(luò)以減小異常聲音的誤判,比傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的預(yù)測(cè)精度,并且預(yù)測(cè)的均方誤差也較小,具有廣泛的應(yīng)用前景。
附圖說(shuō)明
圖1是本發(fā)明語(yǔ)音識(shí)別過(guò)程示意圖。
圖2是本發(fā)明MFCC語(yǔ)音參數(shù)提取示意圖。
圖3是本發(fā)明pso-BP流程算法示意圖。
圖4是本發(fā)明PSO-BP神經(jīng)網(wǎng)絡(luò)示意圖。
具體實(shí)施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于周婷婷,未經(jīng)周婷婷許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410270239.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 在電梯設(shè)備中提供多媒體-內(nèi)容服務(wù)的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品
- 在電梯設(shè)備中提供多媒體-內(nèi)容服務(wù)的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品
- 山藥低分子提取物與制備方法
- 一種DNA?Marker及其制備工藝
- 一種調(diào)整終端工作帶寬的方法及裝置
- 一種資源指示的方法、設(shè)備及系統(tǒng)
- 一種通信方法、用戶設(shè)備、網(wǎng)絡(luò)設(shè)備和通信系統(tǒng)
- 一種具有熒光標(biāo)記的核酸分型標(biāo)準(zhǔn)物及其制備方法和應(yīng)用
- 聚-γ-谷氨酸的生產(chǎn)方法
- 罌粟DNA條形碼測(cè)序及分子鑒定方法
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲(chǔ)介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置
- 基于事先知識(shí)的說(shuō)話者檢驗(yàn)及說(shuō)話者識(shí)別系統(tǒng)和方法
- 說(shuō)話人聲音的后臺(tái)學(xué)習(xí)
- 基于模型順序自適應(yīng)技術(shù)的說(shuō)話人確認(rèn)系統(tǒng)創(chuàng)建方法
- 語(yǔ)音合成字典生成裝置和語(yǔ)音合成字典生成方法
- 說(shuō)話人識(shí)別方法和說(shuō)話人識(shí)別設(shè)備
- 語(yǔ)音處理的方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
- 一種基于多說(shuō)話人條件下目標(biāo)說(shuō)話人語(yǔ)音提取方法
- 一種語(yǔ)音處理方法、介質(zhì)及系統(tǒng)
- 語(yǔ)音翻譯裝置、語(yǔ)音翻譯方法以及記錄介質(zhì)
- 說(shuō)話人識(shí)別方法、相關(guān)設(shè)備及可讀存儲(chǔ)介質(zhì)





