[發(fā)明專利]一種基于獨立向量分析的語音特征融合的說話人識別方法在審
| 申請?zhí)枺?/td> | 202110972388.1 | 申請日: | 2021-08-24 |
| 公開(公告)號: | CN113793614A | 公開(公告)日: | 2021-12-14 |
| 發(fā)明(設(shè)計)人: | 張燁;馬彪 | 申請(專利權(quán))人: | 南昌大學 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/06;G10L25/45;G10L25/24;G10L25/03 |
| 代理公司: | 北京眾合誠成知識產(chǎn)權(quán)代理有限公司 11246 | 代理人: | 王煥巧 |
| 地址: | 330000 江西省*** | 國省代碼: | 江西;36 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 獨立 向量 分析 語音 特征 融合 說話 識別 方法 | ||
本發(fā)明提供了一種基于獨立向量分析的語音特征融合的說話人識別方法。該方法首先將語音信號的時域特征和頻域特征分別構(gòu)成時域特征矩陣和頻域特征矩陣。然后,將時域特征矩陣和頻域特征矩陣構(gòu)成一個特征張量。利用獨立向量分析,從此特征張量中提取融合特征,建立說話人模型,實現(xiàn)說話人的識別。本發(fā)明采用獨立向量分析將語音信號的時域特征和頻域特征融合,構(gòu)成一個新的語音信號的融合特征和說話人的模型,可增強不同類特征之間的相關(guān)性,同時減小同類特征之間的冗余性,提高說話人識別系統(tǒng)的性能。
技術(shù)領(lǐng)域
本發(fā)明屬于語音處理技術(shù)領(lǐng)域。涉及一種語音特征融合的說話人識別方法。
背景技術(shù)
語音特征的提取和融合技術(shù)可廣泛用于語音識別和說話人識別等領(lǐng)域。語音信號主要有兩大類時域特征和頻域特征。時域特征是指在時域,直接從語音信號中提取語音特征,如短時能量、短時振幅、短時過零率、短時自相關(guān)、線性預(yù)測編碼(Linear PredictiveCodings,LPCs)等。頻域特征是指通過傅里葉變換將語音信號從時域轉(zhuǎn)換到頻域,在頻域提取語音信號的特征,如梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCCs)、對數(shù)振幅譜(Log-Magnitude Spectral Feature,LOG-MAG)、感知線性預(yù)測(Perceptual Linear Prediction,PLP)等。語音特征的融合是指將不同類型的語音信號的特征按一定的方法組合構(gòu)成一個新的特征集,也就是融合特征,利用語音信號的融合特征可以提高說話人識別系統(tǒng)的性能。目前,語音信號特征的融合方法通常是將提取出的不同的語音特征直接級聯(lián)構(gòu)成語音的融合特征,不同類特征之間具有互補性,但是,同類特征之間具有一定的相關(guān)性,會降低說話人識別系統(tǒng)的性能。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于獨立向量分析的語音特征融合的說話人識別方法,以解決上述背景技術(shù)中提出的問題。
該方法利用漢明窗將語音信號分成多個相互重疊的幀,假設(shè)幀的個數(shù)為T,從這些語音幀中,提取語音的不同種類的特征,即時域特征(LPCs)和頻域特征(MFCCs)。將語音信號的時域特征或頻域特征分別看作是由多個未知獨立變量和未知的混合系統(tǒng)的線性混合,可表示為:
x[k](t)=A[k]s[k](t) (1)
上式中,為第t幀、第k類的特征向量,k∈{1,...,K},K為不同類語音特征的個數(shù);t∈{1,...,T};為未知的混合矩陣,即混合系統(tǒng)。為未知第t幀、第k類語音信號的未知的獨立向量,也可以看作獨立的源信號。上標T表示轉(zhuǎn)置。將提取的所有幀的同一類型的特征向量構(gòu)成特征矩陣,即再將這些不同類特征矩陣構(gòu)成一個特征張量,即采用獨立向量分析提取獨立向量作為融合特征,同時得到解混張量作為說話人的模型。具體過程如下。
①將說話人的語音信號分幀,提取每一幀的時域特征向量和頻域特征向量,將提取出的特征向量分別構(gòu)成K個特征矩陣,即其中,x[k](t)表示第k個特征類型的第t幀的特征向量,N表示特征的維數(shù),T表示語音幀的個數(shù)。
②將K個矩陣X[k]并聯(lián)成一個張量是一種沒有使用獨立向量分析的融合特征,為了和提出的融合特征相區(qū)別,被記為特征張量。對特征張量采用獨立向量分析提取獨立向量,即
上式中,為融合特征,其中,為獨立向量的估計。是由K個解混矩陣W[k]并聯(lián)構(gòu)成的解混張量。由于對每個說話人是不同的,可以看作說話人模型。
③利用優(yōu)化函數(shù)來估計獨立向量和解混張量,即:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南昌大學,未經(jīng)南昌大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110972388.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





