[發明專利]模型訓練方法、模仿音檢測方法、裝置、設備及存儲介質在審
| 申請號: | 202010624032.4 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111785303A | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 蔣俊;方磊;宣璇 | 申請(專利權)人: | 合肥訊飛數碼科技有限公司 |
| 主分類號: | G10L25/78 | 分類號: | G10L25/78;G10L25/51;G10L25/03 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 薛嬌 |
| 地址: | 230088 安徽省合肥市高新區*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 模仿 檢測 裝置 設備 存儲 介質 | ||
本申請實施例公開了一種模型訓練方法、模仿音檢測方法、裝置、設備及存儲介質,通過模仿音檢測模型對樣本語音進行特征提取,得到樣本語音的初始特征序列;對初始特征序列中的部分初始特征進行修改;利用修改后的初始特征序列,確定樣本語音的模仿音檢測結果;以樣本語音的模仿音檢測結果趨近于樣本語音的標簽為目標,對模仿音檢測模型的參數進行更新。本申請公開的方案,在模型訓練過程中對初始特征序列進行修改,相當于對樣本語音增加了噪聲或樣本語音丟失了一部分有用信息,保證模型的準確性和魯棒性。
技術領域
本申請涉及語音處理技術領域,更具體地說,涉及一種模型訓練方法、模仿音檢測方法、裝置、設備及存儲介質。
背景技術
語音處理在人們的工作和生活中都有廣泛的應用,比如,語音控制、身份識別等。然而,聲音具有易模仿,易偽造的缺點,比如,目前聲音模仿的方式有如下三種:自然人主動模仿、機器合成語音、機器對自然人的語音進行參數調整,這就給語音處理的安全性帶來威脅。
因此,有必要對語音數據進行模仿音檢測,以避免對模仿音進行處理帶來的安全威脅。
發明內容
有鑒于此,本申請提供了一種模型訓練方法、模仿音檢測方法、裝置、設備及存儲介質,以避免對模仿音進行處理帶來的安全威脅。
為了實現上述目的,現提出的方案如下:
一種模仿音檢測模型訓練方法,包括:
對樣本語音的各個語音幀分別進行特征提取,得到所述樣本語音的初始特征序列;
對所述初始特征序列中的部分初始特征進行修改,得到修改后的特征序列;
利用所述修改后的特征序列,確定所述樣本語音的各個語音幀的模仿音檢測結果;
以所述樣本語音的各個語音幀的模仿音檢測結果趨近于所述樣本語音的標簽為目標,對所述模仿音檢測模型的參數進行更新;所述標簽表征所述樣本語音中的各個語音幀是否為模仿音。
上述方法,優選的,所述對樣本語音的各個語音幀分別進行特征提取,得到所述樣本語音的初始特征序列,包括:
獲取樣本語音的各個語音幀的聲學特征;
對各個語音幀的聲學特征分別進行編碼,得到各個語音幀的初始編碼特征,作為所述樣本語音的初始特征序列。
上述方法,優選的,所述對所述初始特征序列中的部分初始特征進行修改,包括:
將所述樣本語音的預置比例的語音幀的初始編碼特征作為所述部分初始特征進行修改。
上述方法,優選的,所述將所述樣本語音的預置比例的語音幀的初始編碼特征作為所述部分初始特征進行修改,包括:
對所述預置比例的語音幀的初始編碼特征在時域的預置位置進行修改和/或在頻域的預置位置進行修改。
上述方法,優選的,所述利用所述修改后的特征序列,確定所述樣本語音的各個語音幀的模仿音檢測結果,包括:
對所述修后的特征序列中的每一個特征分別進行編碼,得到各個語音幀的目標編碼特征,作為所述樣本語音的目標特征序列;
利用所述目標特征序列,確定所述樣本語音的各個語音幀的模仿音檢測結果。
上述方法,優選的,其特征在于,所述聲學特征為翻轉梅爾頻率倒譜系數IMFCC。
上述方法,優選的,所述對所述樣本語音的各個語音幀的聲學特征分別進行編碼,得到各個語音幀的初始編碼特征,包括:
對于每一個語音幀,獲取該語音幀的聲學特征的隱層特征,作為該語音幀的初始編碼特征;或者,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥訊飛數碼科技有限公司,未經合肥訊飛數碼科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010624032.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:垃圾滲濾液處理系統及工藝
- 下一篇:5G低剖面高性能超寬帶天線振子及基站天線





