[發明專利]一種復雜環境下語音特征映射方法有效
| 申請號: | 201710151497.0 | 申請日: | 2017-03-14 |
| 公開(公告)號: | CN106782520B | 公開(公告)日: | 2019-11-26 |
| 發明(設計)人: | 王志鋒;郭天學;左明章;田元;姚璜 | 申請(專利權)人: | 華中師范大學 |
| 主分類號: | G10L15/20 | 分類號: | G10L15/20;G10L15/02;G10L15/14;G10L17/02;G10L17/06 |
| 代理公司: | 42222 武漢科皓知識產權代理事務所(特殊普通合伙) | 代理人: | 魏波<國際申請>=<國際公布>=<進入國 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 復雜 環境 語音 特征 映射 方法 | ||
1.一種復雜環境下語音特征映射方法,其特征在于,包括以下步驟:
步驟1:提取干凈環境下的語音信號的特征;
步驟1的具體實現包括以下子步驟:
步驟1.1:對干凈環境下得到的語音信號進行預處理,包括預加重、分幀、加窗;
步驟1.2:將步驟1.1中預處理后的信號提取Mel倒譜系數特征;
步驟1.3:使用混合高斯模型對步驟1.2中得到的特征建立統計模型,得到干凈環境下語音信號的模型Λ;
步驟2:對復雜環境下的語音進行特征提取;
步驟2的具體實現包括以下子步驟:
步驟2.1:對復雜環境下得到的語音信號進行預處理,包括預加重、分幀、加窗;
步驟2.2:將步驟2.1中預處理后的信號提取Mel倒譜系數特征,記為Y=[y1,y2,...,yi,...,yn],yi表示復雜環境下第i幀的語音特征;
步驟3:利用特征映射方法對復雜環境下的語音特征進行映射;
驟3的具體實現包括以下子步驟:
步驟3.1:將特征的每一幀yi都進行映射,映射形式為:
xi=A·yi+B,簡記為:xi=F(yi);
其中yi為復雜環境下語音特征的第i幀語音特征,xi為通過特征映射函數后得到的第i幀特征,A為增益矩陣,B為偏移矩陣;
A為d行d列的對角矩陣,B為d行1列的矩陣;d為幀長,在分幀的步驟中設置;
步驟3.2:根據最大似然函數和已知模型Λ對F進行參數估計:
其中Λ為步驟1.3中訓練的干凈語音模型;
步驟3.3:根據當前Ft的參數來構造輔助函數計算新的F的參數:
其中,Ft為當前幀的映射函數,F為新的一幀的映射函數;θ表示語音信號狀態序列,X表示語音信號特征,C表示所處高斯分量,m表示混合高斯模型的高斯數,n表示語音信號的幀數;
p(Cj|Λ)=ωj
其中,ωj表示第j個高斯的權重,μj和Σj分別為第j個高斯分量的均值和方差,為方便記為:
步驟3.4:由步驟3.3可得到輔助函數為:
對各項展開可得:
其中μj,k,δj,k分別表示F的第k個參數的第j個高斯的均值和標準差,yi,k表示映射前的第i幀語音特征的第k個矢量,ak,bk分別為F中增益矩陣a和偏移矩陣b的第k個參數;
步驟3.5:對步驟3.4中的展開式分別求F關于ak,bk的偏導數:
將以上兩式展開可得:
步驟3.6:為方便計算,分別將以下統計量替代步驟3.5中的統計量:
則步驟3.5中的方程式可寫為:
解上述方程組得:
步驟3.7:將解得的A,B代入步驟3.1中即可求得經過映射后的語音信號特征X,視為干凈環境下的語音特征;
步驟4:模式匹配與識別。
2.根據權利要求1所述的復雜環境下語音特征映射方法,其特征在于:干凈環境下的語音幀數和復雜環境下的語音幀數保持一致。
3.根據權利要求1或2所述的復雜環境下語音特征映射方法,其特征在于:步驟4中,當得到復雜環境下通過特征映射之后的特征后,對得到的特征建立統計模型,采用HMM-GMM模型,然后進行模型匹配,進行語音識別/說話人識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中師范大學,未經華中師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710151497.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于置信度的語音識別實現方法及系統
- 下一篇:一種語音識別系統





