[發(fā)明專利]音頻編碼器的預(yù)訓(xùn)練方法、音頻檢測(cè)方法及裝置在審

申請(qǐng)?zhí)枺?/td>	202211595442.6	申請(qǐng)日：	2022-12-13
公開（公告）號(hào)：	CN116030798A	公開（公告）日：	2023-04-28
發(fā)明（設(shè)計(jì)）人：	馬航航;杜正印;袁澤寰;盧靚妮	申請(qǐng)（專利權(quán)）人：	北京有竹居網(wǎng)絡(luò)技術(shù)有限公司
主分類號(hào)：	G10L15/06	分類號(hào)：	G10L15/06;G06F18/214;G06F16/35
代理公司：	北京中知法苑知識(shí)產(chǎn)權(quán)代理有限公司 11226	代理人：	趙吉陽
地址：	101299 北京市平***	國(guó)省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	音頻編碼器訓(xùn)練方法檢測(cè) 裝置
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本公開提供了一種音頻編碼器的預(yù)訓(xùn)練方法、音頻檢測(cè)方法及裝置，包括：獲取第一樣本數(shù)據(jù)組，第一樣本數(shù)據(jù)組中包括來源于同一多媒體資源的第一樣本圖像、第一樣本文本以及樣本音頻；將第一樣本圖像輸入至預(yù)先訓(xùn)練的目標(biāo)圖像編碼器中，確定第一圖像特征；將第一樣本文本輸入至預(yù)先訓(xùn)練的目標(biāo)文本編碼器中，確定第一文本特征；以及，將樣本音頻輸入至待訓(xùn)練的初始音頻編碼器中，確定樣本音頻特征；將第一圖像特征和第一文本特征進(jìn)行融合，得到樣本多模態(tài)特征；基于樣本多模態(tài)特征和樣本音頻特征，對(duì)待訓(xùn)練的初始音頻編碼器進(jìn)行訓(xùn)練，以基于訓(xùn)練后的目標(biāo)音頻編碼器進(jìn)行音頻檢測(cè)。

技術(shù)領(lǐng)域

本公開涉及人工智能技術(shù)領(lǐng)域，具體而言，涉及一種音頻編碼器的預(yù)訓(xùn)練方法、音頻檢測(cè)方法及裝置。

背景技術(shù)

隨著信息技術(shù)的發(fā)展，音頻、圖像、文本成為三種最主要的信息傳播的方式，因此對(duì)于音頻、圖像、文本等信息的提取顯得尤為重要。隨著人工智能的發(fā)展，各種神經(jīng)網(wǎng)絡(luò)逐漸應(yīng)用于各個(gè)領(lǐng)域中，當(dāng)神經(jīng)網(wǎng)絡(luò)應(yīng)用于信息提取時(shí)，往往先通過音頻、圖像、文本這三種模態(tài)中兩兩進(jìn)行對(duì)比學(xué)習(xí)來進(jìn)行模型的預(yù)訓(xùn)練，然而這種方法一方面需要大量的樣本數(shù)據(jù)進(jìn)行訓(xùn)練，訓(xùn)練速度較慢，另一反面，由于音頻中往往包含大量的噪聲，在進(jìn)行對(duì)比學(xué)習(xí)時(shí)會(huì)無可避免的影響預(yù)訓(xùn)練模型的精度。

發(fā)明內(nèi)容

本公開實(shí)施例至少提供一種音頻編碼器的預(yù)訓(xùn)練方法、音頻檢測(cè)方法及裝置。

第一方面，本公開實(shí)施例提供了一種音頻編碼器的預(yù)訓(xùn)練方法，包括：

獲取第一樣本數(shù)據(jù)組，所述第一樣本數(shù)據(jù)組中包括來源于同一多媒體資源的第一樣本圖像、第一樣本文本以及樣本音頻；

將所述第一樣本圖像輸入至預(yù)先訓(xùn)練的目標(biāo)圖像編碼器中，確定第一圖像特征；將所述第一樣本文本輸入至預(yù)先訓(xùn)練的目標(biāo)文本編碼器中，確定第一文本特征；以及，將所述樣本音頻輸入至待訓(xùn)練的初始音頻編碼器中，確定樣本音頻特征；其中，所述目標(biāo)圖像編碼器和所述目標(biāo)文本編碼器是基于對(duì)比學(xué)習(xí)訓(xùn)練得到的；

將所述第一圖像特征和所述第一文本特征進(jìn)行融合，得到樣本多模態(tài)特征；

基于所述樣本多模態(tài)特征和所述樣本音頻特征，對(duì)所述待訓(xùn)練的初始音頻編碼器進(jìn)行訓(xùn)練，以基于訓(xùn)練后的目標(biāo)音頻編碼器進(jìn)行音頻檢測(cè)。

一種可選的實(shí)施方式中，所述基于訓(xùn)練后的目標(biāo)音頻編碼器進(jìn)行音頻檢測(cè)，包括：

基于所述目標(biāo)音頻編碼器，構(gòu)建包含所述目標(biāo)音頻編碼器的音頻檢測(cè)模型；

基于樣本音頻對(duì)所述音頻檢測(cè)模型進(jìn)行微調(diào)處理；

在獲取待檢測(cè)音頻之后，基于微調(diào)處理后的音頻檢測(cè)模型，確定所述待檢測(cè)音頻對(duì)應(yīng)的音頻檢測(cè)結(jié)果。

一種可選的實(shí)施方式中，所述方法還包括根據(jù)以下方法訓(xùn)練得到所述目標(biāo)圖像編碼器和所述目標(biāo)文本編碼器：

獲取第二樣本數(shù)據(jù)組，所述第二樣本數(shù)據(jù)組中包括來源于同一多媒體資源的第二樣本圖像和第二樣本文本；

將所述第二樣本圖像輸入至待訓(xùn)練的初始圖像編碼器中，確定所述第二樣本圖像對(duì)應(yīng)的第二圖像特征；以及，將所述第二樣本文本輸入至待訓(xùn)練的初始文本編碼器中，確定所述第二樣本文本對(duì)應(yīng)的第二文本特征；

基于所述第二圖像特征和所述第二文本特征確定特征相似度，并基于所述特征相似度對(duì)所述初始圖像編碼器和所述初始文本編碼器進(jìn)行訓(xùn)練，得到所述目標(biāo)圖像編碼器和所述目標(biāo)文本編碼器。

一種可選的實(shí)施方式中，所述方法還包括根據(jù)以下方法確定所述多媒體資源：

獲取多個(gè)待篩選多媒體資源；

基于所述待篩選多媒體資源的熱度信息，從所述多個(gè)待篩選多媒體資源中確定所述多媒體資源。

一種可選的實(shí)施方式中，所述多媒體資源包括樣本視頻；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京有竹居網(wǎng)絡(luò)技術(shù)有限公司，未經(jīng)北京有竹居網(wǎng)絡(luò)技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202211595442.6/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識(shí)別；音頻分析或處理
G10L15-00 語音識(shí)別
G10L15-02 .語音識(shí)別的特征提取；識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識(shí)別系統(tǒng)，例如對(duì)說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】