[發明專利]說話人識別網絡模型訓練方法、說話人識別方法及系統有效
| 申請號: | 201810025592.0 | 申請日: | 2018-01-11 |
| 公開(公告)號: | CN108417217B | 公開(公告)日: | 2021-07-13 |
| 發明(設計)人: | 錢彥旻;黃子礫;王帥 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L17/18 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 方挺;車江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 說話 識別 網絡 模型 訓練 方法 系統 | ||
1.一種說話人識別網絡模型訓練方法,所述網絡模型包括卷積神經網絡和線性神經網絡,所述方法包括:
預先獲取訓練數據集中的多個說話人的身份向量信息;計算兩兩說話人的身份向量信息之間的余弦相似度值;將余弦相似度值小于預設值的說話人劃分為一組,以得到多個說話人分組;按組從所述多個說話人分組中獲取第i話語三元組,所述訓練數據集中包括多個說話人的話語,每個說話人對應多個話語,所述第i話語三元組由選自所述多個說話人的第一說話人的第一話語和第二話語,以及選自所述多個說話人的第二說話人的第三話語構成;
將所述第i話語三元組輸入至所述卷積神經網絡,所述卷積神經網絡對所述第i話語三元組進行特征提取得到第i話語特征三元組并輸入至所述線性神經網絡,所述第i話語特征三元組包括對應于所述第一至第三話語的第一至第三話語向量信息;
將預先獲取的所述第一說話人的第一身份向量信息和所述第二說話人的第二身份向量信息輸入至所述線性神經網絡,所述線性神經網絡將所述第一身份向量信息分別與所述第一話語向量信息和第二話語向量信息進行加權和,并將所述第二身份向量信息與所述第三話語向量信息進行加權和,以得到融合后的第i話語特征三元組;
根據所述融合后的第i話語特征三元組計算三元組損失,以調整所述網絡模型,其中i取值1至N,N為訓練數據集中所包含的所有話語三元組的個數。
2.根據權利要求1所述的方法,其中,所述根據所述融合后的第i話語特征三元組計算三元組損失,以調整所述網絡模型包括:
根據所述融合后的第i話語特征三元組計算三元組損失,以調整所述卷積神經網絡和/或線性神經網絡。
3.一種說話人識別方法,基于權利要求1-2中任一項所述的方法訓練得到的說話人識別網絡模型實現,所述說話人識別方法包括:
說話人注冊:
將獲取說話人的多個注冊話語輸入至所述卷積神經網絡以得到相應的注冊話語向量信息;
基于所述多個注冊話語生成對應于說話人的注冊身份向量信息;
所述線性神經網絡基于所述注冊身份向量信息和所述注冊話語向量信息生成注冊融合向量信息并存儲;
說話人識別:
將說話人的測試話語輸入至所述卷積神經網絡以得到相應的測試話語向量信息;
基于所述測試話語生成對應于說話人的測試身份向量信息;
所述線性神經網絡基于所述測試身份向量信息和所述測試話語向量信息生成測試融合向量信息并存儲;
計算所述測試融合向量信息與所述注冊融合向量信息之間的判定余弦相似度值;
當所述判定余弦相似度值小于預設判定值時,確定當前說話人為已注冊用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810025592.0/1.html,轉載請聲明來源鉆瓜專利網。





