[發明專利]聲紋模型訓練方法、語音識別方法、裝置、設備及介質有效
| 申請號: | 201710811983.0 | 申請日: | 2017-09-11 |
| 公開(公告)號: | CN107680600B | 公開(公告)日: | 2019-03-19 |
| 發明(設計)人: | 王健宗;郭卉;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L17/14;G10L17/02 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 譚果林 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 線性判別分析 聲紋特征 通用背景模型 聲紋模型 語音數據 概率 業務場景 語音識別 自適應訓練 獲取目標 模型訓練 目標概率 聲學模型 特征提取 訓練語音 多通 保證 | ||
1.一種聲紋模型訓練方法,其特征在于,包括:
采用至少兩個業務場景下的訓練語音數據進行通用背景模型訓練,獲取通用背景模型;
采用所述通用背景模型對域內語音數據和域外語音數據分別進行特征提取,獲取相應的域內聲紋特征和域外聲紋特征;
基于所述域外聲紋特征進行概率線性判別分析模型訓練,獲取域外概率線性判別分析模型;
基于所述域內聲紋特征對所述域外概率線性判別分析模型進行自適應訓練,獲取目標概率線性判別分析模型。
2.根據權利要求1所述的聲紋模型訓練方法,其特征在于,所述采用至少兩個業務場景下的訓練語音數據進行通用背景模型訓練,獲取通用背景模型,包括:
獲取至少兩個業務場景下的訓練語音數據;
將所述至少兩個業務場景下的訓練語音數據等比例混合,獲取混合語音數據;
基于所述混合語音數據進行通用背景模型訓練,獲取通用背景模型。
3.根據權利要求1所述的聲紋模型訓練方法,其特征在于,所述采用所述通用背景模型對域內語音數據和域外語音數據分別進行特征提取,獲取相應的域內聲紋特征和域外聲紋特征,包括:
基于通用背景模型對域內語音數據進行分解,獲取所述通用背景模型的域內均值和域內協方差矩陣,將所述通用背景模型的域內均值和域內協方差矩陣轉換成所述域內聲紋特征;
基于通用背景模型對域外語音數據進行分解,獲取所述通用背景模型的域外均值和域外協方差矩陣,將所述通用背景模型的域外均值和域外協方差矩陣轉換成所述域外聲紋特征。
4.根據權利要求3所述的聲紋模型訓練方法,其特征在于,所述基于所述域外聲紋特征進行概率線性判別分析模型訓練,獲取域外概率線性判別分析模型,包括:
初始化所述概率線性判別分析模型的參數空間;所述概率線性判別分析模型的參數空間表示為H={μ,F,G,ε},其中,μ表示均值,F表示類間方差、G表示類內方差,ε表示噪聲協方差矩陣;
對所述域外概率線性判別分析模型的類內方差進行歸一化處理,獲取中間概率線性判別分析模型,并獲取所述中間概率線性判別分析模型的參數空間;
基于所述中間概率線性判別分析模型的參數空間,采用最大期望算法對攜帶同一用戶標識的至少兩個所述域外聲紋特征在所述中間概率線性判別分析模型中進行迭代運算,生成最大化類間方差和最小化類內方差對應的特征轉換矩陣和類間方差;
基于所述特征轉換矩陣和所述類間方差,根據似然概率更新所述中間概率線性判別分析模型的參數空間,獲取所述域外概率線性判別分析模型;
所述似然概率的表達式為其中,utest表示測試錄音的聲紋特征,表示說話人n條訓練錄音的聲紋特征;表示訓練錄音聲紋特征均值;P(utest)=N(utest|0,I+Ψ);n表示說話人的第n條訓練錄音,I表示類內方差歸一化后的單位矩陣,Ψ表示類間方差;所述的表達式表示服從均值為方差為的正態分布;所述P(utest)的表達式表示服從均值為0,方差為I+Ψ的正態分布。
5.根據權利要求3所述的聲紋模型訓練方法,其特征在于,所述基于所述域內聲紋特征對所述域外概率線性判別分析模型進行自適應訓練,獲取目標概率線性判別分析模型,包括:
在有限步迭代下,將所述域內聲紋特征的域內均值和域內協方差矩陣加權到所述域外概率線性判別分析模型的參數空間的均值和協方差矩陣上,獲取目標概率線性判別分析模型。
6.一種語音識別方法,其特征在于,包括:
采用通用背景模型對待測語音數據進行特征提取,獲取待測聲紋特征,所述待測聲紋特征攜帶用戶標注;
基于所述用戶標注獲取對應的注冊聲紋特征;
采用目標概率線性判別分析模型對所述待測聲紋特征和所述注冊聲紋特征進行處理,獲取似然概率;所述目標概率線性判別分析模型是采用權利要求1-5任一項所述聲紋模型訓練方法獲取到的;
判斷所述似然概率是否大于預設概率;
若所述似然概率大于所述預設概率,則確定所述待測聲紋特征和所述注冊聲紋特征對應同一說話人,并輸出識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710811983.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種便于塑料軸承組裝的組裝設備
- 下一篇:一種電纜鋁帶纏繞機





