[發明專利]音頻識別模型訓練方法,音色相似度檢測方法在審
| 申請號: | 202110809025.6 | 申請日: | 2021-07-16 |
| 公開(公告)號: | CN113470629A | 公開(公告)日: | 2021-10-01 |
| 發明(設計)人: | 譚志力;胡詩超 | 申請(專利權)人: | 騰訊音樂娛樂科技(深圳)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/10;G10L15/16;G10L25/51 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 陳彥如 |
| 地址: | 518052 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 識別 模型 訓練 方法 音色 相似 檢測 | ||
本申請公開了一種音頻識別模型訓練方法,一種音色相似度檢測方法。本申請中的音頻識別模型以兩個有噪音色特征及其二者的相似度作為輸入數據,能夠輸出該相似度的糾正結果,該糾正過程無需關注噪聲大小、時長大小與相似度大小是不是線性關系,也不用關注音頻中的噪聲大小,因此可以降低計算開支和耗時,還提高了音色相似度的糾正準確率。
技術領域
本申請涉及計算機技術領域,特別涉及一種音頻識別模型訓練方法,一種音色相似度檢測方法。
背景技術
目前,歌手音色識別功能廣泛用于歌曲推薦、歌手身份確認等場景。但受限于非專業設備和環境,用戶錄制的歌聲里很容易混入噪聲(麥克風摩擦音,環境背景雜音等),對音色識別的準確度帶來了挑戰。
當前可以使用線性方程檢測和糾正兩個歌曲的音色相似度,即:將原相似度分數與歌曲的噪聲水平、時長等信息進行加權求和。此方式認為噪聲大小、時長大小與相似度大小是線性關系,但實際上噪聲大小、時長大小與相似度大小并不是線性關系,故而此方式難以得到較好的糾正效果。同時,估算歌曲中的噪聲大小時需要分離無噪聲信號和噪聲信號,既難以估算準確,還增加了計算開支和耗時。
發明內容
有鑒于此,本申請的目的在于提供一種音頻識別模型訓練方法,一種音色相似度檢測方法,以提高音色相似度的糾正準確率。其具體方案如下:
為實現上述目的,一方面,本申請提供了一種音頻識別模型訓練方法,包括:
從訓練樣本庫中獲取第一無噪音頻和第二無噪音頻;
對所述第一無噪音頻和所述第二無噪音頻分別添加隨機噪聲,得到所述第一無噪音頻對應的第一有噪音頻,以及所述第二無噪音頻對應的第二有噪音頻;
將所述第一無噪音頻、所述第二無噪音頻、所述第一有噪音頻和所述第二有噪音頻分別輸入音色提取模型,分別提取第一無噪音色特征、第二無噪音色特征、第一有噪音色特征以及第二有噪音色特征;
基于所述第一有噪音色特征以及所述第二有噪音色特征計算所述第一有噪音頻和所述第二有噪音頻的有噪相似度,以及基于所述第一無噪音色特征、所述第二無噪音頻特征、所述第一有噪音色特征以及所述第二有噪音色特征計算所述第一無噪音頻和所述第二無噪音頻的相似度偏移真實值;
將所述第一有噪音色特征、所述第二有噪音色特征和所述有噪相似度輸入待訓練的神經網絡模型,以使所述神經網絡模型輸出所述第一有噪音頻和所述第二有噪音頻的相似度偏移預測值;
計算所述相似度偏移預測值與所述相似度偏移真實值之間的損失值,并將該損失值添加至目標損失集;
基于所述目標損失集中每一損失值調節所述神經網絡模型的模型參數;
從所述訓練樣本庫中重新獲取兩個無噪音頻,以對更新后的神經網絡模型進行迭代訓練,直至達到模型收斂條件,輸出音頻識別模型。
又一方面,本申請還提供了一種音色相似度檢測方法,包括:
獲取第一音頻和第二音頻;
將所述第一音頻和所述第二音頻分別輸入音色提取模型,以使所述音色提取模型輸出所述第一音頻對應的第一音色特征,以及所述第二音頻對應的第二音色特征;
計算所述第一音色特征和所述第二音色特征的待糾正相似度;
將所述第一音色特征、所述第二音色特征和所述待糾正相似度輸入音頻識別模型,以使所述音頻識別模型輸出相似度檢測結果;所述音頻識別模型利用權利要求1至4任一項所述的方法訓練獲得;
基于所述相似度檢測結果確定所述第一音頻和所述第二音頻的音色相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊音樂娛樂科技(深圳)有限公司,未經騰訊音樂娛樂科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110809025.6/2.html,轉載請聲明來源鉆瓜專利網。





