[發明專利]基于匹配模型二次識別的語音識別方法及系統在審
| 申請號: | 201710342320.9 | 申請日: | 2017-05-16 |
| 公開(公告)號: | CN107146615A | 公開(公告)日: | 2017-09-08 |
| 發明(設計)人: | 趙兆;何云亞;許志勇 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/20;G10L15/14;G10L15/08;G10L15/06;G10L25/30;G10L17/26 |
| 代理公司: | 南京理工大學專利中心32203 | 代理人: | 吳茂杰 |
| 地址: | 210094 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 匹配 模型 二次 識別 語音 方法 系統 | ||
1.一種基于匹配模型二次識別的語音識別方法,其特征在于,包括如下步驟:
(10)語音處理:對用戶輸入的語音進行預處理及特征提取;
(20)語音識別:識別解析用戶的語音信息,提取并保存用戶性別和環境噪聲信息;
(30)用戶評價:接收用戶對第一次識別結果的反饋信息,如第一次識別結果不符合期望,則繼續進行二次識別,發出二次識別請求;
(40)匹配模型識別:在二次識別請求下,根據用戶性別和環境噪聲情況,匹配一個最優的語音識別模型,重新識別并輸出解析結果。
2.根據權利要求1所述的語音識別方法,其特征在于,所述(20)語音識別步驟中,識別解析用戶的語音信息步驟包括:
(211)提取用戶輸入語音的梅爾域倒譜系數作為聲學特征;
(212)將輸入語音的特征向量輸入到已經在訓練樣本集上訓練完成的聲學模型中,解碼得到輸入語音的音素成分。
(213)用戶輸入語音的音素組成信息被輸入到解碼器中,解碼器綜合訓練集的發音詞典以及語言模型,給用戶輸入語音一個最優詞序列作為最終的識別解析結果。
3.根據權利要求1所述的語音識別方法,其特征在于,所述(20)語音識別步驟中,用戶性別提取步驟包括:
(221)模型訓練:采用最大似然準則在足量的數據樣本上訓練高斯混合模型;
(222)語音特征提取:提取用戶輸入語音的語音特征,其總體變量空間在UBM上的超級矢量M表示如下,
M=m+Tx+e
其中,M是特定輸入語句的超級矢量,m是樣本數據的均值超級矢量,x是符合正態分布的低維隨機矢量,T是描述總體變化的矩陣,e是由噪聲或其他非相關因素產生的殘差,GMM為高斯混合模型,UBM為統一背景模型;
在已知UBM-GMM模型的參數為Ω時,i-vector可以由上式得到,從而解決如下問題:
(223)根據樣本數據的Baum-Welch統計量γk(i)和Γy,k(i),公式如下:
可以得到i-vector的提取公式:
(224)特征向量估計:根據i-vector的提取公式,可以利用EM算法來估計實際特征向量。
(225)用戶性別分析:將提取得到的用戶i-vector特征用線性投影分析(LDA)方法投影在由500名男性500名女性構成的散布平面上,由此分析出用戶性別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710342320.9/1.html,轉載請聲明來源鉆瓜專利網。





