[發(fā)明專利]一種短時(shí)語(yǔ)音條件下的說(shuō)話人識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810207343.3 | 申請(qǐng)日: | 2018-03-13 |
| 公開(公告)號(hào): | CN108461085A | 公開(公告)日: | 2018-08-28 |
| 發(fā)明(設(shè)計(jì))人: | 李燕萍;劉俊坤;凌云志 | 申請(qǐng)(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號(hào): | G10L17/04 | 分類號(hào): | G10L17/04;G10L17/00;G10L17/02 |
| 代理公司: | 南京蘇科專利代理有限責(zé)任公司 32102 | 代理人: | 陳望坡;姚姣陽(yáng) |
| 地址: | 210003 江蘇省南京*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 瓶頸 語(yǔ)音特征向量 輸出網(wǎng)絡(luò) 置信 矢量量化模型 說(shuō)話人識(shí)別 網(wǎng)絡(luò)模型 語(yǔ)音條件 語(yǔ)音 構(gòu)建 預(yù)處理 語(yǔ)音特征數(shù)據(jù) 矢量量化 特征輸入 網(wǎng)絡(luò)結(jié)構(gòu) 系統(tǒng)識(shí)別 去除 網(wǎng)絡(luò) 監(jiān)督 | ||
本發(fā)明公開了一種短時(shí)語(yǔ)音條件下的說(shuō)話人識(shí)別方法,包括以下步驟:(1):對(duì)不同說(shuō)話人的短時(shí)語(yǔ)音進(jìn)行預(yù)處理,提取語(yǔ)音特征向量并相應(yīng)說(shuō)話人標(biāo)記;(2):用語(yǔ)音特征數(shù)據(jù)對(duì)深度置信網(wǎng)絡(luò)進(jìn)行有監(jiān)督的訓(xùn)練,構(gòu)建深度置信網(wǎng)絡(luò)模型;(3):將深度置信網(wǎng)絡(luò)模型中瓶頸層之后的網(wǎng)絡(luò)結(jié)構(gòu)去除,形成瓶頸輸出網(wǎng)絡(luò)模型;(4):將不同說(shuō)話人的語(yǔ)音特征向量依次經(jīng)過瓶頸輸出網(wǎng)絡(luò)模型,提取得到相應(yīng)的瓶頸特征,然后將瓶頸特征作為矢量量化訓(xùn)練輸入,構(gòu)建矢量量化模型;(5):將待識(shí)別短時(shí)語(yǔ)音的語(yǔ)音特征向量經(jīng)過瓶頸輸出網(wǎng)絡(luò)模型,提取相應(yīng)瓶頸特征,再將得到的待識(shí)別短時(shí)語(yǔ)音的瓶頸特征輸入矢量量化模型進(jìn)行識(shí)別。本發(fā)明具有系統(tǒng)識(shí)別率高的優(yōu)點(diǎn)。
技術(shù)領(lǐng)域
本發(fā)明涉及信號(hào)處理、機(jī)器學(xué)習(xí)和模式識(shí)別技術(shù)領(lǐng)域,尤其涉及一種短時(shí)語(yǔ)音條件下的說(shuō)話人識(shí)別方法。
背景技術(shù)
說(shuō)話人識(shí)別又稱聲紋識(shí)別,是一種通過對(duì)說(shuō)話人的語(yǔ)音進(jìn)行處理和分析,自動(dòng)鑒別說(shuō)話人身份的技術(shù)。說(shuō)話人識(shí)別是根據(jù)語(yǔ)音波形中反映說(shuō)話人生理和行為個(gè)性特征的語(yǔ)音參數(shù)來(lái)區(qū)分說(shuō)話人的身份。說(shuō)話人識(shí)別技術(shù)與其他生物識(shí)別技術(shù)相比,具有采集設(shè)備簡(jiǎn)單、認(rèn)證方式友好、易于擴(kuò)展等優(yōu)勢(shì),在軍事安全系統(tǒng)、銀行證券系統(tǒng)以及司法鑒定系統(tǒng)等各個(gè)領(lǐng)域有廣泛的應(yīng)用。對(duì)說(shuō)話人識(shí)別系統(tǒng)實(shí)進(jìn)行研究時(shí),通常進(jìn)行模型充分訓(xùn)練,采用足夠的語(yǔ)料進(jìn)行測(cè)試,但是系統(tǒng)在實(shí)際應(yīng)用時(shí),采集的說(shuō)話人語(yǔ)音往往都是有限時(shí)長(zhǎng),嚴(yán)重影響系統(tǒng)識(shí)別率,所以在短時(shí)語(yǔ)音條件下更好地發(fā)揮系統(tǒng)性能,具有非常重要意義。
目前短時(shí)語(yǔ)音條件下說(shuō)話人識(shí)別方法研究的比較少,主要有基于矢量量化的說(shuō)話人識(shí)別方法(簡(jiǎn)稱VQ)以及基于高斯混合模型的說(shuō)話人識(shí)別方法(簡(jiǎn)稱GMM)等識(shí)別方法,上述說(shuō)話人識(shí)別方法在短時(shí)語(yǔ)音條件下均存在以下缺陷:(1)直接采用說(shuō)話人語(yǔ)音MFCC特征進(jìn)行模型訓(xùn)練,MFCC特征參數(shù)包含了語(yǔ)音中大量信息,包括語(yǔ)義信息和說(shuō)話人個(gè)性特征信息,當(dāng)說(shuō)話人語(yǔ)音時(shí)長(zhǎng)有限時(shí),加上說(shuō)話人情緒狀態(tài)和周圍環(huán)境的影響,使得識(shí)別模型很難對(duì)特征進(jìn)行正確的說(shuō)話人識(shí)別;(2)當(dāng)說(shuō)話人數(shù)量較多或者說(shuō)話人語(yǔ)音時(shí)長(zhǎng)較短時(shí),系統(tǒng)識(shí)別率低。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種在短時(shí)語(yǔ)音條件下系統(tǒng)識(shí)別率高的的說(shuō)話人識(shí)別方法。
為實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:所述的一種短時(shí)語(yǔ)音條件下的說(shuō)話人識(shí)別方法,包括以下步驟:
步驟(1):采集不同說(shuō)話人的短時(shí)語(yǔ)音,并對(duì)所采集的不同說(shuō)話人的短時(shí)語(yǔ)音進(jìn)行預(yù)處理,提取不同說(shuō)話人的語(yǔ)音特征向量,并對(duì)所提取的語(yǔ)音特征向量進(jìn)行相應(yīng)說(shuō)話人標(biāo)記;
步驟(2):用步驟(1)中得到的所有說(shuō)話人的語(yǔ)音特征數(shù)據(jù)對(duì)深度置信網(wǎng)絡(luò)進(jìn)行有監(jiān)督的訓(xùn)練,構(gòu)建深度置信網(wǎng)絡(luò)模型;
步驟(3):將步驟(2)中構(gòu)建完成的深度置信網(wǎng)絡(luò)模型中瓶頸層之后的網(wǎng)絡(luò)結(jié)構(gòu)去除,形成瓶頸輸出網(wǎng)絡(luò)模型;
步驟(4):將步驟(1)中提取的不同說(shuō)話人的語(yǔ)音特征向量依次經(jīng)過步驟(3)中構(gòu)建完成的瓶頸輸出網(wǎng)絡(luò)模型,提取得到相應(yīng)的瓶頸特征,然后將提取到的瓶頸特征作為矢量量化輸入數(shù)據(jù)進(jìn)行矢量量化訓(xùn)練,構(gòu)建矢量量化模型;
步驟(5):先將待識(shí)別短時(shí)語(yǔ)音的語(yǔ)音特征向量經(jīng)過步驟(3)中構(gòu)建的瓶頸輸出網(wǎng)絡(luò)模型,提取得到待識(shí)別短時(shí)語(yǔ)音的瓶頸特征,然后再將提取得到的待識(shí)別短時(shí)語(yǔ)音的瓶頸特征輸入步驟(4)中構(gòu)建的矢量量化模型進(jìn)行識(shí)別。
進(jìn)一步地,前述的一種短時(shí)語(yǔ)音條件下的說(shuō)話人識(shí)別方法,其中:步驟(1)中采集說(shuō)話人語(yǔ)音時(shí)長(zhǎng)為不超過10s的短時(shí)語(yǔ)音。
進(jìn)一步地,前述的一種短時(shí)語(yǔ)音條件下的說(shuō)話人識(shí)別方法,其中:步驟(1)中對(duì)短時(shí)語(yǔ)音的預(yù)處理包括:預(yù)加重、分幀加窗以及端點(diǎn)檢測(cè)。
進(jìn)一步地,前述的一種短時(shí)語(yǔ)音條件下的說(shuō)話人識(shí)別方法,其中:步驟(1)中提取說(shuō)話人語(yǔ)音特征向量的具體方法為:提取說(shuō)話人語(yǔ)音40維MFCC參數(shù),除去代表直流分量的第一維數(shù)據(jù),然后進(jìn)行5幀拼接成一超幀,形成195維的語(yǔ)音特征向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810207343.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 語(yǔ)音識(shí)別的方法和裝置
- 說(shuō)話者識(shí)別設(shè)備、說(shuō)話者識(shí)別程序、和說(shuō)話者識(shí)別方法
- 一種語(yǔ)音增強(qiáng)方法、語(yǔ)音識(shí)別方法、聚類方法及裝置
- 語(yǔ)音端點(diǎn)檢測(cè)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 命名實(shí)體識(shí)別方法、命名實(shí)體識(shí)別裝置、設(shè)備及介質(zhì)
- 語(yǔ)音唇形擬合方法、系統(tǒng)及存儲(chǔ)介質(zhì)
- 一種語(yǔ)音意圖識(shí)別方法及系統(tǒng)
- 基于注意力的弱監(jiān)督語(yǔ)音檢索方法及系統(tǒng)
- 一種語(yǔ)音識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種用戶類別判定方法、裝置、存儲(chǔ)介質(zhì)及服務(wù)器





