[發明專利]一種基于情感GMM模型權重合成的情感說話人識別方法有效
| 申請號: | 201310394533.8 | 申請日: | 2013-09-02 |
| 公開(公告)號: | CN103456302A | 公開(公告)日: | 2013-12-18 |
| 發明(設計)人: | 楊瑩春;陳力;吳朝暉 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G10L15/20 | 分類號: | G10L15/20;G10L17/02;G10L17/04 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 情感 gmm 模型 權重 合成 說話 識別 方法 | ||
技術領域
本發明涉及信號處理和模式識別,更具體地,本發明涉及一種基于情感GMM模型權重合成的情感說話人識別方法。
背景技術
說話人識別技術是指利用信號處理技術和模式識別方法,通過采集說話人的語音來識別其身份的技術,主要包括兩個步驟:說話人模型訓練和測試語音識別。情感說話人識別是為了解決注冊說話人的訓練語音和測試語音存在情感不一致引起的說話人識別系統性能下降問題。本專利提出的方法就是通過建立說話人的虛擬情感模型,提高系統的識別性能。
目前,說話人識別采用的主要短時語音特征包括梅爾倒譜系數(MFCC),線性預測編碼倒譜系數(LPCC),感覺加權的線性預測系數(PLP)。說話人識別的算法主要包括矢量量化(VQ),通用背景模型方法(GMM-UBM),支持向量機(SVM)等等。其中,GMM-UBM在整個說話人識別領域應用非常廣泛。
在情感說話人識別中,訓練語音通常為中性情感語音,因為在現實應用中,一般情況下用戶只會提供中性發音下的語音訓練自己的模型。而測試時,語音可能包括各種情感的語音,如高興,悲傷等。然而,傳統的說話人識別系統并不能處理這種訓練和測試環境的失配。
發明內容
本發明提供了一種基于情感GMM模型權重合成的情感說話人識別方法,通過建立說話人的中性情感權重模型,在僅僅采集說話人中性語音的基礎上,提高對說話人情感變化識別的魯棒性,提高說話人識別的準確性。
一種基于情感GMM模型權重合成的情感說話人識別方法,步驟如下:
(1)針對每個說話人,建立說話人的中性GMM模型,并依據對應的中性情感權重參數變換模型,得到不同的情感GMM模型;
本發明所說的情感可以有多種選擇,例如高興、憤怒、驚慌、悲傷、壓抑等,選擇的情感的種類越多,則最終的識別結果越精確,但相應的計算量也會增加,因此,使用時可以依據需要選擇適當數目的情感種類,相應每種情感建立情感GMM模型。
(2)采集待識別說話人的語音并提取語音特征,將得到的語音特征在步驟(1)中得到的所有情感GMM模型中進行得分計算;
該步驟中待識別的說話人均已在步驟(1)中建立相應的中性GMM模型以及情感GMM模型,即對于某一個待識別說話人來說,如果在步驟(1)中沒有建立過相應的中性GMM模型以及情感GMM模型,則不能對該待識別說話人進行識別。
(3)將所有得分進行比較,得分最高的情感GMM模型所對應的說話人即為待識別說話人。
每個說話人的中性模型與情感模型之間的權重之間存在映射關系,利用這種映射關系,即可通過中性模型直接計算得到情感模型,中性情感權重參數變換模型的建立方法可以采用現有技術中的各種算法,只要能夠在中性模型與情感模型之間建立起映射關系即可,優選地,所述中性情感權重參數變換模型利用徑向基神經網絡或者稀疏表達建立。
作為優選,所述中性情感權重參數變換模型的建立過程,具體包括以下步驟:
1-1、在開發庫中,提取所有情感狀態下的不同說話人的短時語音特征,通過EM算法訓練出情感無關的高斯混合背景模型;
1-2、利用該高斯混合背景模型,通過自適應均值和自適應權重,得到開發庫中每個說話人的中性GMM模型;
1-3、利用步驟1-2的中性GMM模型,通過自適應權重的方法,得到各種情感狀態下的情感GMM模型;
1-4、利用步驟1-2的中性GMM模型中的權重和步驟1-3的情感GMM模型中的權重,訓練徑向基神經網絡或者稀疏表達模型,得到中性情感權重參數變換模型。
本發明中的開發庫是指,在實現本發明之前,先任意選取若干說話人組成開發庫,后續識別過程中的說話人與開發庫中的說話人不一定相同,即可以相同,也可以不同。
作為優選,采用徑向基神經網絡得到中性情感權重參數變換模型時,具體包括以下步驟:在開發庫中,利用每個說話人的中性GMM模型權重序列以及該說話人對應的每種情感GMM模型權重序列,通過正交最小二乘法訓練得到GMM模型權重序列與每種情感GMM模型權重序列之間的映射關系,即中性情感權重參數變換模型。
作為優選,采用稀疏表達得到中性情感權重參數變換模型時,具體包括以下步驟:在開發庫中,利用每個說話人的中性GMM模型權重序列以及該說話人對應的每種情感GMM模型權重序列,得到中性情感對齊字典,即中性情感權重參數變換模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310394533.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語音控制的方法和智能空調系統
- 下一篇:一種LED可變信息標志的加工方法





