[發明專利]聲紋識別模型的訓練與聲紋識別方法及裝置在審
| 申請號: | 202111214097.2 | 申請日: | 2021-10-19 |
| 公開(公告)號: | CN114067805A | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 張銀輝;趙情恩;熊新雷;陳蓉;梁蕓銘;周羊;肖巖 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L15/08 |
| 代理公司: | 北京鴻德海業知識產權代理有限公司 11412 | 代理人: | 田宏賓 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聲紋 識別 模型 訓練 方法 裝置 | ||
1.一種聲紋識別模型的訓練方法,包括:
獲取訓練數據,所述訓練數據中包含多個樣本音頻數據與多個樣本音頻數據的類別標簽;
根據所述訓練數據,生成對應不同訓練任務的支持集與查詢集;
構建包含特征提取層、原型網絡層與全連接層的神經網絡模型,所述特征提取層用于輸出支持集中包含的支持音頻數據的特征向量與查詢集中包含的查詢音頻數據的特征向量,所述原型網絡層用于輸出支持集中包含的支持音頻數據所對應的各類別的原型向量,所述全連接層用于輸出查詢集中包含的查詢音頻數據屬于支持集中各類別的概率分布;
使用對應不同訓練任務的支持集與查詢集對所述神經網絡模型進行訓練,得到聲紋識別模型。
2.根據權利要求1所述的方法,其中,所述根據所述訓練數據,生成對應不同訓練任務的支持集與查詢集包括:
針對每個訓練任務,獲取對應該訓練任務的至少一個訓練類別;
根據所述樣本音頻數據的類別標簽,分別從與所述至少一個訓練類別對應的樣本音頻數據中,抽取第一預設數量的樣本音頻數據作為支持音頻數據,構成所述支持集;
從所述至少一個訓練類別對應的樣本音頻數據中抽取所述第一預設數量的樣本音頻數據后的剩余樣本音頻數據中,抽取第二預設數量的樣本音頻數據作為查詢音頻數據,構成所述查詢集。
3.根據權利要求1所述的方法,其中,所述特征提取層由膠囊網絡與自動編碼器構成。
4.根據權利要求1所述的方法,其中,所述方法還包括:
針對所述支持集中的每個類別,獲取該類別包含的支持音頻數據的特征向量;
根據所述特征向量,得到該類別的原型向量。
5.根據權利要求1或4所述的方法,其中,所述方法還包括:
獲取所述查詢集中每個查詢音頻數據的特征向量;
針對每個查詢音頻數據,根據該查詢音頻數據的特征向量與所述支持集中各類別的原型向量,得到該查詢音頻數據屬于所述支持集中各類別的概率分布。
6.根據權利要求1所述的方法,其中,所述使用對應不同訓練任務的支持集與查詢集對所述神經網絡模型進行訓練,得到聲紋識別模型包括:
將對應不同訓練任務的支持集與查詢集輸入所述神經網絡模型;
根據所述神經網絡模型針對每個訓練任務輸出的所述查詢集中包含的查詢音頻數據屬于所述支持集中各類別的概率分布,計算損失函數值;
根據所述損失函數值對所述神經網絡模型的參數進行調整,直至所述神經網絡模型收斂,得到所述聲紋識別模型。
7.一種聲紋識別方法,包括:
獲取測試數據,所述測試數據中包含多個測試音頻數據與多個測試音頻數據的類別標簽;
根據所述測試數據,生成支持集;
獲取待識別音頻數據,作為查詢集;
將所述支持集與所述查詢集輸入聲紋識別模型,根據所述聲紋識別模型的輸出結果,確定所述待識別音頻數據的聲紋識別結果;
其中,所述聲紋識別模型是根據權利要求1-6中任一項所述的方法訓練得到的。
8.根據權利要求7所述的方法,其中,所述根據所述測試數據,生成支持集包括:
獲取至少一個測試類別;
根據所述測試音頻數據的類別標簽,分別從與所述至少一個測試類別對應的測試音頻數據中,抽取第四預設數量的測試音頻數據,構成所述支持集。
9.根據權利要求1所述的方法,其中,所述根據所述聲紋識別模型的輸出結果,確定所述待識別音頻數據的聲紋識別結果包括:
獲取所述聲紋識別模型輸出的所述待識別音頻數據屬于所述支持集中各類別的概率分布;
根據所述概率分布,將對應概率值最大的類別作為所述待識別音頻數據的聲紋識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111214097.2/1.html,轉載請聲明來源鉆瓜專利網。





