[發明專利]基于基狀態矢量加權的短語音說話人識別方法有效
| 申請號: | 201310182450.2 | 申請日: | 2013-05-16 |
| 公開(公告)號: | CN103219008A | 公開(公告)日: | 2013-07-24 |
| 發明(設計)人: | 栗志意;張衛強;劉巍巍;劉加 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L17/16 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張大威 |
| 地址: | 100084 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 狀態 矢量 加權 語音 說話 識別 方法 | ||
技術領域
本發明涉及語音識別技術領域,特別涉及一種基于基狀態矢量加權的短語音說話人識別方法。
背景技術
說話人識別技術是指利用機器自動地從待測語音信號中識別出其所屬說話人身份信息的一項生物特征識別技術。該技術廣泛應用于基于語音的說話人身份確認、公安刑偵、法庭物證鑒定、國家安全等領域。
常見的說話人識別系統主要包括VQ(矢量量化)、GMM-UBM(高斯混合模型-通用背景模型)、GSV-SVM(高斯均值超矢量-支持矢量機)、JFA(聯合因子分析)、IVEC(身份認證矢量)等等。其中GSV-SVM系統由于其靈活性,穩健性好等方面優于其他系統,目前廣泛應用于實際項目中。
目前的GSV-SVM系統建模過程中,在提取超矢量階段,將目標說話人的語音數據和反模型數據進行特征提取,通過在通用背景模型上進行MAP自適應,分別得到說話人GMM均值超矢量和反模型的GMM均值超矢量;在建模階段,利用SVM分類器對上述均值超矢量進行監督性訓練,得到相應的說話人模型。在測試階段,同樣對測試語音進行特征提取并在通用背景模型上進行MAP自適應,得到測試語音段的GMM均值超矢量,與訓練好的模型進行測試打分,從而通過分數與判決門限比較給出識別結果。
在目前的GSV-SVM說話人識別系統中,往往由于訓練說話人的語音段時長較短或者測試語音段時長較短,導致自適應GMM均值超矢量的過程中,一些GMM混合度上得不到充分自適應,容易導致發生“模型空洞”的問題,從而限制了短語音下說話人識別的性能。
發明內容
本發明的目的旨在至少解決上述的技術缺陷之一。
為此,本發明的目的在于提出一種基于基狀態矢量加權的短語音說話人識別方法。
為達到上述目的,本發明的實施例提出一種基于基狀態矢量加權的短語音說話人識別方法,包括以下步驟:S1:采集多個帶文本標注的語音數據,并對所述多個語音數據進行訓練,以得到狀態層聚類的隱馬爾可夫模型,其中,聚類后的狀態為基狀態;S2:根據所述狀態層聚類的隱馬爾可夫模型對說話人識別中的數據進行解碼,以得到數據的基狀態標注;S3:根據所述數據的基狀態的標注訓練基狀態的通用背景模型,并從MAP自適應后的模型生成基狀態均值超矢量和基狀態權值超矢量;S4:根據所述基狀態均值超矢量和基狀態權值超矢量進行說話人模型訓練和測試,從而估計所述短語音說話人的身份。
本發明的一個實施例中,所述步驟S1具體包括:所述步驟S1具體包括:采集多個帶文本標注的語音數據;對所述多個語音數據進行訓練得到音素隱馬爾科夫模型;以及根據所述音素隱馬爾科夫模型進行狀態層聚類,以得到所述狀態層聚類的隱馬爾可夫模型,其中,聚類后的狀態為基狀態。
本發明的一個實施例中,所述步驟S2進一步包括:通過解碼算法和所述基狀態層聚類的隱馬爾科夫模型對所有說話人識別中的數據進行解碼,以得到所述數據的基狀態標注。
本發明的一個實施例中,所述步驟S4進一步包括:根據所述基狀態均值超矢量和基狀態權值超矢量訓練說話人模型和測試,得到說話人識別的分數;以及根據所述說話人識別的分數估計說話人的身份。
本發明的一個實施例中,所述基狀態模型包括13個基狀態模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310182450.2/2.html,轉載請聲明來源鉆瓜專利網。





