[發明專利]音頻編碼器的預訓練方法、音頻檢測方法及裝置在審
| 申請號: | 202211595442.6 | 申請日: | 2022-12-13 |
| 公開(公告)號: | CN116030798A | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 馬航航;杜正印;袁澤寰;盧靚妮 | 申請(專利權)人: | 北京有竹居網絡技術有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G06F18/214;G06F16/35 |
| 代理公司: | 北京中知法苑知識產權代理有限公司 11226 | 代理人: | 趙吉陽 |
| 地址: | 101299 北京市平*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 編碼器 訓練 方法 檢測 裝置 | ||
1.一種音頻編碼器的預訓練方法,其特征在于,包括:
獲取第一樣本數據組,所述第一樣本數據組中包括來源于同一多媒體資源的第一樣本圖像、第一樣本文本以及樣本音頻;
將所述第一樣本圖像輸入至預先訓練的目標圖像編碼器中,確定第一圖像特征;將所述第一樣本文本輸入至預先訓練的目標文本編碼器中,確定第一文本特征;以及,將所述樣本音頻輸入至待訓練的初始音頻編碼器中,確定樣本音頻特征;其中,所述目標圖像編碼器和所述目標文本編碼器是基于對比學習訓練得到的;
將所述第一圖像特征和所述第一文本特征進行融合,得到樣本多模態特征;
基于所述樣本多模態特征和所述樣本音頻特征,對所述待訓練的初始音頻編碼器進行訓練,以基于訓練后的目標音頻編碼器進行音頻檢測。
2.根據權利要求1所述的方法,其特征在于,所述基于訓練后的目標音頻編碼器進行音頻檢測,包括:
基于所述目標音頻編碼器,構建包含所述目標音頻編碼器的音頻檢測模型;
基于樣本音頻對所述音頻檢測模型進行微調處理;
在獲取待檢測音頻之后,基于微調處理后的音頻檢測模型,確定所述待檢測音頻對應的音頻檢測結果。
3.根據權利要求1所述的方法,其特征在于,所述方法還包括根據以下方法訓練得到所述目標圖像編碼器和所述目標文本編碼器:
獲取第二樣本數據組,所述第二樣本數據組中包括來源于同一多媒體資源的第二樣本圖像和第二樣本文本;
將所述第二樣本圖像輸入至待訓練的初始圖像編碼器中,確定所述第二樣本圖像對應的第二圖像特征;以及,將所述第二樣本文本輸入至待訓練的初始文本編碼器中,確定所述第二樣本文本對應的第二文本特征;
基于所述第二圖像特征和所述第二文本特征確定特征相似度,并基于所述特征相似度對所述初始圖像編碼器和所述初始文本編碼器進行訓練,得到所述目標圖像編碼器和所述目標文本編碼器。
4.根據權利要求1或3所述的方法,其特征在于,所述方法還包括根據以下方法確定所述多媒體資源:
獲取多個待篩選多媒體資源;
基于所述待篩選多媒體資源的熱度信息,從所述多個待篩選多媒體資源中確定所述多媒體資源。
5.根據權利要求1所述的方法,其特征在于,所述多媒體資源包括樣本視頻;
所述第一樣本圖像為對所述樣本視頻進行抽幀處理后得到的預設數量的抽幀圖像;
所述第一樣本文本為所述樣本視頻的標題;
所述樣本音頻為所述樣本視頻中預設長度的音頻。
6.根據權利要求5所述的方法,其特征在于,所述將所述第一樣本圖像輸入至預先訓練的目標圖像編碼器中,確定第一圖像特征,包括:
將所述預設數量的抽幀圖像分別輸入至所述目標圖像編碼器中,得到各抽幀圖像分別對應的初始圖像特征;
將所述各抽幀圖像分別對應的初始圖像特征進行融合,得到所述第一圖像特征。
7.根據權利要求3所述的方法,其特征在于,所述第二樣本數據組包括正樣本對和負樣本對;
所述方法還包括根據以下方法確定所述正樣本對和所述負樣本對:
獲取多個來源于同一多媒體資源的第二樣本圖像和第二樣本文本;
將來源于同一多媒體資源的第二樣本圖像和第二樣本文本作為正樣本對;將來源于不同多媒體資源的第二樣本圖像和第二樣本文本進行組合,作為負樣本對。
8.一種音頻檢測方法,其特征在于,包括:
獲取待檢測音頻;
將所述待檢測音頻輸入至基于權利要求1~7任一所述的音頻編碼器的預訓練方法訓練得到的目標音頻編碼器中,確定所述待檢測音頻對應的音頻特征;
基于所述音頻特征確定所述待檢測音頻對應的音頻檢測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京有竹居網絡技術有限公司,未經北京有竹居網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211595442.6/1.html,轉載請聲明來源鉆瓜專利網。





