[發(fā)明專利]身份矢量x-vector線性變換下的說話人識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910312097.2 | 申請(qǐng)日: | 2019-04-18 |
| 公開(公告)號(hào): | CN110047504B | 公開(公告)日: | 2021-08-20 |
| 發(fā)明(設(shè)計(jì))人: | 徐瓏婷;張光林;趙萍;張磊;季云云 | 申請(qǐng)(專利權(quán))人: | 東華大學(xué) |
| 主分類號(hào): | G10L25/18 | 分類號(hào): | G10L25/18;G10L25/24;G10L25/30;G10L25/60;G10L15/02;G10L15/06 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 翁若瑩;柏子雵 |
| 地址: | 201600 上*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 身份 矢量 vector 線性變換 說話 識(shí)別 方法 | ||
本發(fā)明涉及一種身份矢量x?vector線性變換下的說話人識(shí)別方法,主要步驟是:對(duì)語(yǔ)音進(jìn)行特征提取,并分別提取其身份矢量x?vector和i?vector;利用同一個(gè)說話人的x?vector和i?vector進(jìn)行平行因子分析器訓(xùn)練;選取平行因子分析器中x?vector對(duì)應(yīng)的參數(shù),在此參數(shù)基礎(chǔ)上對(duì)身份矢量x?vector進(jìn)行線性變換得到xl?vector;對(duì)新的身份矢量xl?vector訓(xùn)練PLDA模型;將待測(cè)試語(yǔ)音進(jìn)行特征提取以及x?vector提取,將其輸入到訓(xùn)練階段得到的線性變換器得到新的身份矢量xl?vector,最后將其輸入到訓(xùn)練階段得到的PLDA模型,從而得到最終結(jié)果。本發(fā)明在保證內(nèi)存需求和計(jì)算速度和基線系統(tǒng)相似的同時(shí),提高了說話人識(shí)別的識(shí)別性能。
技術(shù)領(lǐng)域
本發(fā)明涉及本發(fā)明涉及生物識(shí)別中的說話人識(shí)別技術(shù),更具體地說涉及一種身份矢量x-vector線性變換下的說話人識(shí)別技術(shù)。
背景技術(shù)
語(yǔ)音是人類進(jìn)行溝通交流的最直接方便的方式,它以其特有的方便性、經(jīng)濟(jì)性、準(zhǔn)確性等各方面的優(yōu)勢(shì)引起了各個(gè)研究機(jī)構(gòu)的注意。語(yǔ)音信號(hào)處理的研究對(duì)促進(jìn)人機(jī)交互、人工智能發(fā)展有著重大意義。為此,語(yǔ)音信號(hào)處理的相關(guān)領(lǐng)域,例如語(yǔ)音識(shí)別、語(yǔ)音編碼、語(yǔ)音合成、說話人識(shí)別等方向受到越來越多的關(guān)注與理論研究。說話人識(shí)別,又稱聲紋識(shí)別,其研究目標(biāo)是根據(jù)每個(gè)說話人的獨(dú)特發(fā)音進(jìn)行身份認(rèn)證。每個(gè)說話人的語(yǔ)音都有著獨(dú)特的個(gè)人特色,這是因?yàn)槊總€(gè)說話人天生的發(fā)聲器官不同,同時(shí)受后天所在的環(huán)境因素影響而培養(yǎng)成的屬于自己的一個(gè)獨(dú)特的嗓音。正是由于這種差異性,使得將語(yǔ)音作為一種生物特性作為識(shí)別目標(biāo)成為可能,說話人識(shí)別也逐漸形成了自己的一套比較完善的識(shí)別體系。
說話人識(shí)別系統(tǒng)包括了預(yù)處理部分、特征提取部分、模型訓(xùn)練與匹配計(jì)算部分。說話人識(shí)別的關(guān)鍵技術(shù)包括特征參數(shù)提取算法,模型的選擇和模型匹配算法,直接決定了識(shí)別系統(tǒng)的性能。說話人模型分為生成模型與判別模型。生成模型是學(xué)習(xí)各個(gè)類別各自的特征,即多個(gè)模型,識(shí)別數(shù)據(jù)映射到每個(gè)模型中,進(jìn)而確定識(shí)別數(shù)據(jù)屬于哪一類;判別模型是學(xué)習(xí)分類面,該分類面可用來區(qū)分不同的數(shù)據(jù)分別屬于哪一類。這兩個(gè)模型以基于全局差異模型(TotalVariabilityModeling,TVM) 的身份矢量i-vector、基于延時(shí)神經(jīng)網(wǎng)絡(luò)(Time-delayDeepNeuralNetwork,TDNN) 的身份矢量x-vector為代表,是目前使用最廣泛的兩個(gè)矢量模型。
x-vector的后端部分和i-vector后端部分一般均采用概率線性判別分析 (probabilisticlineardiscriminantanalysis,PLDA)的后端評(píng)分方法。x-vector模型下的結(jié)果與i-vector的結(jié)果在長(zhǎng)時(shí)語(yǔ)音下相當(dāng),在短時(shí)語(yǔ)音下結(jié)果更好。不同的論文研究了如何提高x-vector模型下的系統(tǒng)性能,研究表明將i-vector和x-vector 的模型疊加或者PLDA得分融合可以提高系統(tǒng)性能,然而該種方法設(shè)計(jì)到兩種系統(tǒng),需要大量的內(nèi)存需求,同時(shí)計(jì)算速度也會(huì)受到影響。隨后,更多的研究通過數(shù)據(jù)擴(kuò)充的方式來提高x-vector的魯棒性,但是這種方法受識(shí)別環(huán)境影響。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種考慮在線識(shí)別目標(biāo)說話人的內(nèi)存量和計(jì)算時(shí)間的說話人識(shí)別方法。
為了達(dá)到上述目的,本發(fā)明的技術(shù)方案是提供了一種基于身份矢量x-vector 線性變換下的說話人識(shí)別方法,其特征在于,包括如下步驟:
步驟1、提取說話人的訓(xùn)練語(yǔ)音的梅爾頻率倒譜系數(shù)作為說話人的特征;
步驟2、利用步驟1獲得的特征采用深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練x-vector模型,建立身份矢量x-vector模型,從而獲得身份矢量x-vector;
步驟3、利用步驟1獲得的特征基于EM算法訓(xùn)練i-vector模型,建立身份矢量i-vector模型,從而獲得身份矢量i-vector;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東華大學(xué),未經(jīng)東華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910312097.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 汽車安全管理系統(tǒng)及其管理方法
- 一種身份核驗(yàn)系統(tǒng)、身份核驗(yàn)系統(tǒng)的熱替換方法及系統(tǒng)
- 具有身份識(shí)別系統(tǒng)的手持電鉆
- 一種身份數(shù)據(jù)管理方法、系統(tǒng)和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種身份數(shù)據(jù)管理方法、系統(tǒng)和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于可信身份的證書共享方法
- 一種身份標(biāo)識(shí)識(shí)別方法、裝置以及相關(guān)設(shè)備
- 一種識(shí)別身份認(rèn)證裝置的方法、設(shè)備以及圖像形成裝置
- 用于身份原子化的系統(tǒng)和方法以及用途
- 基于區(qū)塊鏈的身份管理元數(shù)據(jù)處理方法和系統(tǒng)
- 基于減少的運(yùn)動(dòng)矢量預(yù)測(cè)候選對(duì)運(yùn)動(dòng)矢量進(jìn)行編碼和解碼的方法和設(shè)備
- 一種圖像解碼設(shè)備
- 圖像處理設(shè)備和圖像處理方法
- 圖像處理設(shè)備和圖像處理方法
- 圖像解碼設(shè)備和圖像解碼方法
- 級(jí)聯(lián)型三相變頻器的調(diào)制方法
- 方位矩陣計(jì)算方法及裝置
- 用于對(duì)運(yùn)動(dòng)矢量進(jìn)行編碼/解碼的方法和裝置
- 用于對(duì)運(yùn)動(dòng)矢量進(jìn)行編碼/解碼的方法和裝置
- 一種適用于矩陣變換器的空間矢量過調(diào)制方法及裝置
- 分布式計(jì)算方法和裝置
- 語(yǔ)音數(shù)據(jù)處理方法和裝置
- 一種聲紋識(shí)別方法及系統(tǒng)
- 一種針對(duì)短語(yǔ)音的說話人識(shí)別模型的訓(xùn)練方法及裝置
- i-vector向量提取方法、說話人識(shí)別方法、裝置、設(shè)備及介質(zhì)
- 一種性別年齡識(shí)別方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種基于降噪自動(dòng)編碼器的語(yǔ)種識(shí)別分類方法及裝置
- 一種聲紋特征的融合方法及裝置
- 身份矢量x-vector線性變換下的說話人識(shí)別方法
- 一種聲紋聚類方法、裝置、處理設(shè)備以及計(jì)算機(jī)存儲(chǔ)介質(zhì)





