[發明專利]一種說話人識別方法有效
| 申請號: | 201410334124.3 | 申請日: | 2014-07-14 |
| 公開(公告)號: | CN105261367B | 公開(公告)日: | 2019-03-15 |
| 發明(設計)人: | 周若華;許云飛;顏永紅;楊琳 | 申請(專利權)人: | 中國科學院聲學研究所;北京中科信利技術有限公司 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02 |
| 代理公司: | 北京方安思達知識產權代理有限公司 11472 | 代理人: | 王宇楊;楊青 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 說話 識別 方法 | ||
本發明涉及一種說話人識別方法,該方法首先生成說話人識別模型,把背景語音和目標說話人語音作為訓練數據,訓練出第一高斯混合?通用背景模型,總變化空間,第二高斯混合?通用背景模型,局部線性鑒別分析模型;利用第一高斯混合?通用背景模型,總變化空間,第二高斯混合?通用背景模型計算出待識別語音的總變化因子和總變化因子的后驗概率,輸入局部線性鑒別分析模型進行轉換,得到維數更低的矢量,輸入后端識別器輸出識別結果。本方法增加了說話人間的鑒別性,可提高說話人識別性能;同時該方法可以對總變化因子進行降維,提升了識別速度,具有很高的實用性。
技術領域
本發明涉及語音數據中說話人信息的識別方法,更具體地說,本發明涉及一種基于局部線性鑒別分析的說話人識別方法。
背景技術
隨著現代社會信息的全球化,說話人識別已經成為語音識別技術研究熱點之一。說話人識別技術是身份驗證技術---生物特征識別技術的一種,與其他身份驗證技術相比,說話人識別更加方便、自然,且具有比較低的用戶侵犯性。說話人識別任務根據實際應用的類型不同,可以分為說話人辨認和說話人確認。其中,說話人辨認在全部目標說話人的范圍內進行,其性能與目標人數目有關,隨著人數的增加性能逐步下降。與此同時,在實際應用中往往需要處理大量的語音數據,速度成為需要考慮的因素之一。如何利用有限的訓練數據,訓練具有說話人鑒別性的模型,并快速準確地識別出語音中說話人信息的說話人識別技術成為一個研究重點。
文獻[1](D.A.Reynolds,T.F.Quatieri,R.B.Dunn.Speaker verification usingadapted gaussian mixture models.Digital Signal Processing,2000,10(1–3):19-41.)指出,對于各語種各信道下語音數據的聲學譜特征,通過采用高斯混合-通用模型進行建模,然后針對每一句語音計算在其上面的后驗統計量,通過自適應得到一個說話人相關的高斯混合-通用模型,該模型可以有效識別語音數據中的說話人信息。基于高斯混合-通用模型可以計算出語音數據的總變化因子。
目前,總變化因子技術已廣泛的應用于說話人識別技術中。然而,由于信道,背景,語言,感情,年齡,健康等因素的影響,總變化因子的分布常常表現出多模態特性,甚至可能出現異常值。文獻[2](N.Dehak,P.Kenny,R.Dehak,P.Dumouchel,P.Ouellet.Front-endfactor analysis for speaker verification.IEEE Transactions on Audio,Speechand Language Processing,2011,19(4):788-798.)提出:對總變化因子使用類內協方差規整技術和線性鑒別分析降維技術可以有效的補償信道損失并加入鑒別性信息。但線性鑒別分析技術對總變化因子的信道損失補償是有限的,無法有效地處理上述問題。
文獻[3](Kim,Tae-Kyun and Kittler,Josef.Locally linear discriminantanalysis for multimodally distributed classes for face recognition with asingle model image.IEEE Transactions on Pattern Analysis and Machineintelligence,2005,27(3):318-327.)提出了局部線性鑒別分析技術(線性鑒別分析技術是高斯數目為1時的特例),這個技術已成功有效地應用在人臉識別上。在傳統的說話人識別系統中,由于語音數據的維度很高,導致計算量加大,內存的需求急劇上升,導致局部線性鑒別分析技術無法應用到說話人識別中。
由于總變化因子技術的出現,一段語音可以用低維的特征矢量表示(通常在400-600維),這為局部線性鑒別分析技術應用在說話人識別上提供了幫助。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;北京中科信利技術有限公司,未經中國科學院聲學研究所;北京中科信利技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410334124.3/2.html,轉載請聲明來源鉆瓜專利網。





