[發明專利]音頻事件檢測模型訓練方法及裝置在審
| 申請號: | 202111005905.4 | 申請日: | 2021-08-30 |
| 公開(公告)號: | CN113724740A | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 張鵬遠;劉鈺卓;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所 |
| 主分類號: | G10L25/78 | 分類號: | G10L25/78;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 事件 檢測 模型 訓練 方法 裝置 | ||
1.一種音頻事件檢測模型訓練方法,其特征在于,包括:
對于用于音頻事件檢測的多個訓練樣本中的每個訓練樣本,確定訓練樣本的三個訓練特征;其中,所述訓練樣本為無標注樣本或標注有音頻事件標簽的標注樣本;所述三個訓練特征均為所述訓練樣本的聲學特征;所述多個訓練樣本劃分為K個訓練樣本集,所述K個訓練樣本集各集均包括所述無標注樣本和所述標注樣本,所述K為大于等于1的正整數;
對大師模型、教師模型、學生模型進行多次迭代,基于滿足迭代結束條件的學生模型作為音頻事件檢測模型進行音頻事件檢測;其中,所述大師模型和所述教師模型的模型結構相同;所述多次迭代包括M個訓練周期,所述M個訓練周期各周期均包括分別與所述K個訓練樣本集一一對應的K次迭代,所述K次迭代中每次迭代對應的訓練樣本集中訓練樣本的三個訓練特征分別作為所述大師模型、教師模型、學生模型的輸入;所述多次迭代中的每次迭代包括:
根據所述大師模型基于上次迭代的模型參數對本次迭代輸入的無標注樣本的訓練特征進行計算輸出的音頻事件概率,對所述教師模型基于上次迭代的模型參數對本次迭代輸入的無標注樣本的訓練特征進行計算輸出的音頻事件概率進行修正,確定本次迭代對應的無標注樣本的偽標簽;
根據所述學生模型基于上次迭代的模型參數對本次迭代輸入的訓練特征進行計算輸出的音頻事件概率、本次迭代對應的標注樣本的音頻事件標簽、所述本次迭代對應的無標注樣本的偽標簽,調整所述學生模型上次迭代的模型參數,確定所述學生模型本次迭代的模型參數;
根據所述大師模型和所述教師模型各自基于上次迭代的模型參數對本次迭代輸入的訓練特征進行計算輸出的音頻事件概率、本次迭代對應的標注樣本的音頻事件標簽,調整所述教師模型上次迭代的模型參數,確定所述教師模型本次迭代的模型參數;
基于所述教師模型本次迭代和之前迭代的模型參數,確定所述大師模型本次迭代的模型參數。
2.根據權利要求1所述的方法,其特征在于,所述根據所述大師模型和所述教師模型各自基于上次迭代的模型參數對本次迭代輸入的訓練特征進行計算輸出的音頻事件概率、本次迭代對應的標注樣本的音頻事件標簽,調整所述教師模型上次迭代的模型參數,包括:
根據所述教師模型基于上次迭代的模型參數對本次迭代輸入的標注樣本的訓練特征進行計算輸出的音頻事件概率和本次迭代對應的標注樣本的音頻事件標簽,計算第一誤差值;
根據所述大師模型和所述教師模型各自基于上次迭代的模型參數對本次迭代輸入的標注樣本的訓練特征進行計算輸出的音頻事件概率、預設校正參數、本次迭代對應的標注樣本的音頻事件標簽,計算第二誤差值;
根據所述大師模型和所述教師模型各自基于上次迭代的模型參數對本次迭代輸入的無標注樣本的訓練特征進行計算輸出的音頻事件概率、預設校正參數,確定第三誤差值;
根據所述第一誤差值、所述第二誤差值和所述第三誤差值,確定第一目標誤差值,以最小化所述第一目標誤差值作為目的,對所述教師模型上次迭代的模型參數進行調整。
3.根據權利要求1所述的方法,其特征在于,所述根據所述學生模型基于上次迭代的模型參數對本次迭代輸入的訓練特征進行計算輸出的音頻事件概率、本次迭代對應的標注樣本的音頻事件標簽、所述本次迭代對應的無標注樣本的偽標簽,調整所述學生模型上次迭代的模型參數,包括:
根據所述學生模型基于上次迭代的模型參數對本次迭代輸入的標注樣本的訓練特征進行計算輸出的音頻事件概率和本次迭代對應的標注樣本的音頻事件標簽,計算第四誤差值;
基于所述學生模型基于上次迭代的模型參數對本次迭代輸入的無標注樣本的訓練特征進行計算輸出的音頻事件概率和本次迭代對應的無標注樣本的偽標簽,計算第五誤差值;
通過所述第四誤差值和所述第五誤差值,確定第二目標誤差值,以最小化所述第二目標誤差值作為目的,對所述學生模型上次迭代的模型參數進行調整。
4.根據權利要求1所述的方法,其特征在于,所述訓練樣本的三個訓練特征為對所述訓練樣本進行聲學特征提取的結果進行三次數據增強后的三個聲學特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所,未經中國科學院聲學研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111005905.4/1.html,轉載請聲明來源鉆瓜專利網。





