[發明專利]基于改進的LSDA算法進行信道補償的說話人識別方法在審
| 申請號: | 201611139153.X | 申請日: | 2016-12-12 |
| 公開(公告)號: | CN106601258A | 公開(公告)日: | 2017-04-26 |
| 發明(設計)人: | 蔡丹蔚;陳金坤;蔡煒誠;李明 | 申請(專利權)人: | 廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/18;G10L17/20 |
| 代理公司: | 廣州粵高專利商標代理有限公司44102 | 代理人: | 林麗明 |
| 地址: | 528300 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改進 lsda 算法 進行 信道 補償 說話 識別 方法 | ||
技術領域
本發明涉及說話人識別領域,更具體地,涉及一種基于改進的局部敏感判別分析(Locality Sensitive Discriminant Analysis,LSDA)算法進行信道補償的說話人識別方法。
背景技術
說話人識別,又稱聲紋識別,說話人識別指的是提取語音信號中說話人的信息,利用機器學習和模式識別的相關方法,自動地鑒定語音信號中對應的說話人身份。
說話人識別技術在過去的幾十年中快速發展,在多個領域都得到了運用,具有非常重要而廣泛的前景。在司法領域,說話人識別技術可以作為輔助手段分析罪證,如電話、手機錄音等,從而協助確認犯罪嫌疑人;在日常民用安全和智能家居領域,說話人識別可以制作用于身份認證的“聲紋密碼鎖”,這一技術已經成功地應用在騰訊公司的即時通信移動應用——微信的“聲音鎖”中;在多媒體信息處理領域,可用于電視廣播、視頻數據的剪輯和整理,通過提取數據中的說話人身份元信息(meta data),可以方便進行分類和索引。
目前主流的說話人識別技術主要是基于身份向量(i-vector)對說話人信息進行建模。該方法首先將每一句語音的MFCC特征在混合高斯通用背景模型(Universal Background Model,UBM)上進行映射,提取出零階統計量與一階統計量,進而得出高維的超向量(supervector)。單因子分析(single factor analysis)作為前端處理,在超向量上訓練出一個低維的總體差異空間(即說話人空間),將超向量映射到總體差異空間上即可得到身份向量。概率線性判別分析(Probabilistic Linear Discriminate Analysis,PLDA)作為一種后端建模技術,對i-vector中的說話人信息進行建模。將兩個i-vector在PLDA模型上計算它們之間的似然度得分,由此分數判斷兩個i-vector對應的說話人是否為同一個說話人。
由于總體差異空間同時對語言信息、說話人信息、信道信息進行建模,通過總體差異空間映射得到的身份向量i-vector也包含了這幾部分信息。因此,在進行PLDA打分之前,通常會使用線性判別分析(Linear Discriminant Analysis,LDA)對i-vector進行信道補償,去除與說話人信息無關的信道信息,只留下與說話人有關的信息。
上述方案中,LDA算法假設每一個說話人類的分布服從高斯分布,并對每一個說話人類的統計特性進行估算,基于歐幾里得結構(Euclidean structure)尋找訓練數據的線性流形(linear manifold),最大化不同說話人i-vector之間的類間差異,最小化相同說話人i-vector的類內差異??墒?,在實際使用中,說話人識別身份向量的分布并不嚴格服從高斯分布,因此LDA算法可能會導致沒有辦法發現訓練數據隱藏在總體差異空間中的線性子流型(linear sub-manifold)結構。
發明內容
本發明為解決以上現有技術的難題,將改進的局部敏感判別分析(Locality Sensitive Discriminant Analysis,LSDA)算法替代LDA算法來對說話人識別系統進行信道補償,改進的LSDA算法通過引入自適應k近鄰的概念,跟據每個類的大小自適應地尋找k個類內近鄰與βk個類間近鄰;并且引入每一說話人類對算法貢獻均等的概念,對每一說話人類在目標方程中的貢獻進行歸一化處理。因此改進的LSDA算法與改進之前相比,更適用于說話人識別任務的數據分布。
為實現以上發明目的,采用的技術方案是:
一種基于改進的LSDA算法進行信道補償的說話人識別方法,包括以下步驟:
S1.對訓練數據中所有的語音進行語音信號檢測,并提取MFCC特征;
S2.使用神經網絡聲學模型對MFCC特征進行處理,一個MFCC幀通過神經網絡聲學模型的處理后,得到多維的音素層單元后驗概率向量,對得到的音素層單元后驗概率向量進行取對數、主成分分析降維、均值方差歸一化處理之后,得到一個多維的向量,將這個向量拼接到與其對應的MFCC特征后,得到tandem特征;
S3.利用tandem特征訓練一個包含多個高斯分量的混合高斯模型作為通用背景模型,并將所有語音在這個通用背景模型上計算出充分統計量;對于訓練數據中的任一條語音,基于充分統計量計算出其高維的超向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學,未經廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611139153.X/2.html,轉載請聲明來源鉆瓜專利網。





