[發明專利]說話人日志模型的訓練方法、裝置、設備及存儲介質在審
| 申請號: | 202210177866.4 | 申請日: | 2022-02-25 |
| 公開(公告)號: | CN114429768A | 公開(公告)日: | 2022-05-03 |
| 發明(設計)人: | 羅藝 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L17/22 | 分類號: | G10L17/22;G10L17/02;G10L17/04;G10L17/18 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 李文靜 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 說話 人日 模型 訓練 方法 裝置 設備 存儲 介質 | ||
本申請公開了一種說話人日志模型的訓練方法、裝置、設備及存儲介質,屬于人工智能領域。包括:獲取樣本語音信號的特征序列及真實標簽;根據特征序列獲取估計吸引子序列;將特征序列及估計吸引子序列輸入至說話人日志模型中得到估計說話人類別概率;基于估計說話人類別概率及真實標簽,計算第一損失函數值;基于第一損失函數值對模型參數進行更新。通過上述方法,使得訓練好的說話人日志模型能夠具備更高的語音信號識別精度,從而生成更加準確的說話人日志。
技術領域
本申請實施例涉及人工智能領域,特別涉及一種說話人日志模型的訓練方法、裝置、設備及存儲介質。
背景技術
說話人日志是指在采集的語音信號中,通過分辨出不同說話人的說話階段對語音信號進行標注,從而檢測出每段語音對應的說話人的身份,進而輔助說話人識別系統針對每個說話人進行對應的識別,說話人日志應用于會議記錄、客服工作監督等多種場景中。
相關技術中,在針對語音信號生成說話人日志時,利用訓練好的說話人日志模型分別計算語音信號對應的估計說話人類別概率及估計說話人個數概率,并通過估計說話人類別概率確定說話人類別,通過估計說話人個數概率確定說話人個數。
在上述相關技術中,需要分別利用估計說話人類別概率計算第一損失函數值和利用估計說話人個數概率計算第二損失函數值來對說話人日志模型進行訓練,導致模型的訓練效果不佳,進而導致說話人識別的準確率較低,也即說話人日志生成的準確率較低。
發明內容
本申請提供了一種說話人日志模型的訓練方法、裝置、設備及存儲介質,能夠提高說話人日志的生成準確率。所述技術方案如下:
根據本申請的一方面,提供了一種說話人日志模型的訓練方法,所述方法包括:
獲取樣本語音信號的特征序列及真實標簽,所述真實標簽是指表征真實說話人類別的標簽;
根據所述特征序列獲取估計吸引子序列,所述估計吸引子序列中的一個吸引子表征一個說話人類別;
將所述特征序列及所述估計吸引子序列輸入至所述說話人日志模型中得到估計說話人類別概率,所述估計說話人類別概率是指所述說話人日志模型估計得到的說話人類別的概率;
基于所述估計說話人類別概率及所述真實標簽,計算第一損失函數值;
基于所述第一損失函數值對所述說話人日志模型的模型參數進行更新。
根據本申請的一方面,通過所述說話人日志模型的所述特征提取網絡中的非負函數對所述語音特征進行特征提取,得到提取特征;
將所述提取特征的取值進行歸一化,得到所述樣本語音信號的所述特征序列。
根據本申請的一方面,提供了一種說話人識別方法,所述方法包括:
獲取語音信號的特征序列;
根據所述特征序列獲取估計吸引子序列,所述估計吸引子序列中的一個吸引子表征一個說話人類別;
將所述特征序列及所述估計吸引子序列輸入至所述說話人日志模型中得到估計說話人類別概率,所述估計說話人類別概率是指所述說話人日志模型估計得到的說話人類別的概率;
基于所述估計說話人類別概率,確定所述語音信號對應的說話人類別及說話人個數。
根據本申請的一方面,所述說話人日志模型還包括特征提取網絡;
獲取所述語音信號的語音特征,所述語音特征為所述語音信號的時頻特征數據;
通過所述特征提取網絡對所述語音特征進行特征提取,得到所述語音信號的所述特征序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210177866.4/2.html,轉載請聲明來源鉆瓜專利網。





