[發明專利]一種語音身份特征提取器、分類器訓練方法及相關設備有效
| 申請號: | 201710910880.X | 申請日: | 2017-09-29 |
| 公開(公告)號: | CN109584884B | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 李娜;王珺 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/14;G10L17/18 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 身份 特征 提取 分類 訓練 方法 相關 設備 | ||
1.一種語音身份特征提取器訓練方法,其特征在于,包括:
提取訓練語音的語音特征向量;
根據所述訓練語音的語音特征向量,確定所述訓練語音相應的身份因子I-vector;
以所述I-vector作為神經網絡模型的第一目標輸出,對神經網絡模型的權重進行調整,得到第一神經網絡模型;
獲取目標檢測語音的語音特征向量,確定所述第一神經網絡模型對所述目標檢測語音的語音特征向量的輸出結果;
根據所述輸出結果,確定身份因子隱變量;
估計身份因子隱變量的后驗均值,以所述后驗均值作為所述第一神經網絡模型的第二目標輸出,調整所述第一神經網絡模型的權重,得到語音身份特征提取器。
2.根據權利要求1所述的語音身份特征提取器訓練方法,其特征在于,所述以所述I-vector作為神經網絡模型的第一目標輸出,對神經網絡模型的權重進行調整,得到第一神經網絡模型包括:
根據所述訓練語音的語音特征向量確定輸入語音特征向量;
以所述輸入語音特征向量作為神經網絡模型的輸入,所述I-vector作為神經網絡模型的第一目標輸出,神經網絡模型的每次輸出和第一目標輸出之間的均方誤差作為損失函數,對神經網絡模型的權重進行調整,得到第一神經網絡模型。
3.根據權利要求2所述的語音身份特征提取器訓練方法,其特征在于,所述根據所述訓練語音的語音特征向量確定輸入語音特征向量包括:
拼接訓練語音相鄰的設定數量幀的語音特征向量,得到輸入語音特征向量。
4.根據權利要求1-3任一項所述的語音身份特征提取器訓練方法,其特征在于,所述對神經網絡模型的權重進行調整之前還包括:
以分層初始化方法初始化神經網絡模型。
5.根據權利要求1所述的語音身份特征提取器訓練方法,其特征在于,所述根據所述輸出結果,確定身份因子隱變量包括:
確定所述輸出結果的均值,以該均值訓練信噪比不變概率線性區分分析SNR-invariant PLDA模型,在訓練過程中計算得到身份因子隱變量。
6.根據權利要求5所述的語音身份特征提取器訓練方法,其特征在于,所述在訓練過程中計算得到身份因子隱變量包括:
根據公式計算得到身份因子隱變量hi;
其中,Vsi表示第一神經網絡模型對第s個說話人的第i條語音的語音特征向量的輸出結果的均值,b表示目標檢測語音相應的信噪比區間,m表示均值,R表示說話人信息空間,U表示信噪比空間,gb表示信噪比因子,表示殘差項。
7.根據權利要求1所述的語音身份特征提取器訓練方法,其特征在于,所述以所述后驗均值作為所述第一神經網絡模型的第二目標輸出,調整所述第一神經網絡模型的權重,得到語音身份特征提取器包括:
拼接目標檢測語音相鄰設定數量幀的語音特征向量作為第一神經網絡模型的輸入,以身份因子隱變量的后驗均值為第一神經網絡模型的第二目標輸出,第一神經網絡模型每次輸出和第二目標輸出之間的均方誤差為損失函數,對第一神經網絡模型進行調整,得到語音身份特征提取器。
8.根據權利要求1所述的語音身份特征提取器訓練方法,其特征在于,所述根據所述訓練語音的語音特征向量,確定所述訓練語音相應的I-vector包括:
基于高斯混合模型GMM模型,根據所述訓練語音各幀的語音特征向量,確定充分統計量;
根據所述充分統計量確定總變化空間矩陣;
根據所述總變化空間矩陣,確定所述訓練語音相應的I-vector。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710910880.X/1.html,轉載請聲明來源鉆瓜專利網。





