[發明專利]一種基于深淺層特征融合的魯棒性說話人識別方法在審
| 申請號: | 202010589695.7 | 申請日: | 2020-06-24 |
| 公開(公告)號: | CN111755012A | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 余帆;曾春艷;馬超峰;陳新凱 | 申請(專利權)人: | 湖北工業大學 |
| 主分類號: | G10L17/00 | 分類號: | G10L17/00;G10L17/02;G10L17/04;G10L17/06;G10L17/18;G10L25/24;G10L25/45 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430068 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深淺 特征 融合 魯棒性 說話 識別 方法 | ||
本發明一種基于基于深淺層特征融合的魯棒性說話人識別方法,分為五部分:1)MFCC特征提取;2)淺層說話人特征(GSV)提取;3)深層說話人特征(DMFCC)提取;4)特征融合和SVM決策;5)“投票法”聯合判決。與傳統說話人識別相比,本發明的說話人識別方法在背景噪聲的環境下能夠有效提升系統的識別性能,在降低噪聲對系統性能影響、提高系統噪聲魯棒性的同時,優化系統結構,提高了相應說話人識別產品的競爭力。
技術領域
本發明屬于說話人識別技術領域,特別指一種基于深淺層特征融合的魯棒性說話人識別方法。
背景技術
說話人識別,是一種基于語音信息實現的特殊生物識別技術。經過幾十年的發展,目前無噪聲干擾條件下說話人識別技術已經較為成熟。目前主流的方法有GMM-UBM、GMM-SVM和i-vector。然而在實際應用環境下,由于背景噪聲和信道噪聲的存在,說話人識別算法性能會明顯下降。因此,如何提高現有說話人識別系統的噪聲魯棒性成為近年來該領域的研究熱點。
為解決這一問題,研究人員已在語音信號處理的不同層面做出嘗試。相關文獻證實,在信號處理領域的相關識別算法能否取得好的效果取決于噪聲的類型和信噪比的大小。對于語音來說,特征真實的概率分布依賴于特定的說話人并且是多模態的。然而,在實際應用場景中,信道的不匹配和加性噪聲等因素會破壞特征真實的概率分布。相關研究通過將具有噪聲魯棒性的語音特征與倒譜均值方差歸一化等技術結合,在一定條件下可以調整特征的概率分布,達到降低噪聲對系統性能影響的目的。特征彎折算法(featurewarping)是將訓練和測試語音的特征向量的分布映射到統一的概率分布中,經過映射后的特征向量的每一維都服從標準正態分布,在一定程度上補償了信道不匹配和加性噪聲對特征分布造成的影響。但是,對基于不同語音特征的識別算法進行比較可以發現,識別性能是否改善與噪聲的類型和信噪比也是緊密相關的。當環境中含有少量噪聲時,基于特征域的相關算法考慮到噪聲對特征分布特性的影響,通過分布映射等方式調整特征分布可以提高系統的噪聲魯棒性。但是,隨著信噪比的減小,噪聲影響特征分布特性的同時,也會改變語音中說話人相關的信息,系統性能會急劇下降,通過調整特征分布帶來的系統性能上的提升就顯得微不足道。
近年來,隨著機器學習算法性能的提升和計算機存儲、計算能力的提高,深度神經網絡(Deep Neural Network,DNN)被應用到說話人識別領域中并取得了顯著的效果。因為人類語音信號的產生和感知過程就是一個復雜的過程,而且在生物學上是具有明顯的多層次或深層次處理結構。所以,對于語音這種復雜信號,傳統的方法無法充分利用語音本身已包含的更多個性化信息,因此可能導致計算機的辨識能力與人類本身對語言的直覺之間存在很大的差別。比如相同的語音片段中詞語的順序不同有可能導致音素連接處發音出現變化,或者不同的說話人因為口音或者方言問題使得說話人表達習慣會有所不同,或者完全不同的內容卻有相近發音,導致系統無法識別。因此,利用DNN深層次的非線性變換來捕捉說話人特征是目前非常活躍的研究領域。
上述幾種不同的說話人識別方法因其各自特殊的優勢以及很好地識別性能而得到廣泛的認可和應用,但仍存在不足。高斯均值超矢量(GSV)是由GMM-UBM系統的說話人模型的均值構建產生,有效地降低了噪聲的影響,但同時也削弱了能代表說話人個性的特性成分。因此,盡管其相對于MFCC特征更為凝練,但它仍是一種淺層、物理層面的聲學特征,難以表征語音段的高層信息。而基于深度神經網絡的說話人識別中添加了具有區分性的信息,但并未涉及物理層的最直觀的聲學特性。由于深、淺層特征從不同角度側面反映說話人信息,希望以有效的融合方式得到更具魯棒性的特征表達。因此本發明就深層特征和淺層特征進行融合研究,將經過深度神經網絡處理過的分塊MFCC特征作為深層特征,將高斯均值超矢量(GSV)作為淺層特征,然后對兩種特征向量進行融合,得到包含更多信息的、更具魯棒性的說話人特征,提升說話人識別系統的性能。
發明內容
本發明的上述技術問題主要是通過下述技術方案得以解決的:
一種基于深淺層特征融合的魯棒性說話人識別方法,其特征在于,包括
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北工業大學,未經湖北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010589695.7/2.html,轉載請聲明來源鉆瓜專利網。





