[發(fā)明專利]一種音頻片段的檢測方法及相關(guān)設(shè)備在審

申請?zhí)枺?/td>	201911399043.0	申請日：	2019-12-26
公開（公告）號：	CN111159464A	公開（公告）日：	2020-05-15
發(fā)明（設(shè)計）人：	繆暢宇	申請（專利權(quán)）人：	騰訊科技（深圳）有限公司
主分類號：	G06F16/65	分類號：	G06F16/65;G06F16/683;G06N3/04;G06N3/08
代理公司：	廣州三環(huán)專利商標(biāo)代理有限公司 44202	代理人：	熊永強(qiáng);杜維
地址：	518057 廣東省深圳***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種音頻片段檢測方法相關(guān) 設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種音頻片段的檢測方法，其特征在于，包括：

接收對目標(biāo)音頻文件的音頻片段檢測請求，所述音頻片段檢測請求攜帶目標(biāo)類別標(biāo)識；

將所述目標(biāo)音頻文件的音頻特征和所述目標(biāo)類別標(biāo)識的類別向量輸入至訓(xùn)練后的音頻片段提取模型；其中，所述訓(xùn)練后的音頻片段提取模型包括訓(xùn)練后的分類模型和訓(xùn)練后的回歸模型；

根據(jù)所述訓(xùn)練后的分類模型，對所述目標(biāo)音頻文件的音頻特征進(jìn)行檢測，以判斷所述目標(biāo)音頻文件對應(yīng)的所有音頻類別中是否存在所述類別向量對應(yīng)的音頻類別；

若所述目標(biāo)音頻文件對應(yīng)的所有音頻類別中存在所述類別向量對應(yīng)的音頻類別，則根據(jù)訓(xùn)練后的回歸模型確定所述目標(biāo)音頻文件中所述類別向量對應(yīng)的音頻片段的起止信息；

根據(jù)所述起止信息確定所述音頻片段。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述目標(biāo)音頻文件的音頻特征和所述目標(biāo)類別標(biāo)識的類別向量輸入至訓(xùn)練后的音頻片段提取模型之前，還包括：

根據(jù)特征提取模型，對所述目標(biāo)音頻文件進(jìn)行檢測，得到所述目標(biāo)音頻文件的音頻特征。

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述根據(jù)特征提取模型，對所述目標(biāo)音頻文件進(jìn)行檢測，得到所述目標(biāo)音頻文件的音頻特征，包括：

獲取所述目標(biāo)音頻文件的頻譜圖；

根據(jù)特征提取模型，對所述頻譜圖進(jìn)行檢測，得到所述目標(biāo)音頻文件的音頻特征。

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述獲取所述目標(biāo)音頻文件的頻譜圖，包括：

獲取所述目標(biāo)音頻文件的時域序列；

對所述時域序列進(jìn)行頻域處理，得到所述目標(biāo)音頻文件的頻域序列；

根據(jù)所述時域序列和所述頻域序列，獲得所述目標(biāo)音頻文件的頻譜圖，所述頻譜圖包括多個頻譜序列。

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述目標(biāo)音頻文件的音頻特征和所述目標(biāo)類別標(biāo)識的類別向量輸入至訓(xùn)練后的音頻片段提取模型之前，還包括：

根據(jù)文本編碼器模型，對所述目標(biāo)類別標(biāo)識進(jìn)行檢測，得到所述目標(biāo)類別標(biāo)識的類別向量。

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述目標(biāo)音頻文件的音頻特征和所述目標(biāo)類別標(biāo)識的類別向量輸入至訓(xùn)練后的音頻片段提取模型之前，還包括：

獲取樣本音頻文件的樣本數(shù)據(jù)，所述樣本數(shù)據(jù)包括的至少一個樣本音頻片段、各個所述樣本音頻片段的類別標(biāo)識以及各個所述樣本音頻片段的起止信息；

根據(jù)所述至少一個樣本音頻片段、所述各個所述樣本音頻片段的類別標(biāo)識以及各個所述樣本音頻片段的起止信息，得到訓(xùn)練后的音頻片段提取模型。

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述樣本音頻文件的樣本數(shù)據(jù)包括正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)，所述正樣本數(shù)據(jù)的置信度高于負(fù)樣本數(shù)據(jù)的置信度。

8.一種音頻片段的檢測裝置，其特征在于，包括：

接收單元，用于接收對目標(biāo)音頻文件的音頻片段檢測請求，所述音頻片段檢測請求攜帶目標(biāo)類別標(biāo)識；

處理單元，用于將所述目標(biāo)音頻文件的音頻特征和所述目標(biāo)類別標(biāo)識的類別向量輸入至訓(xùn)練后的音頻片段提取模型；其中，所述訓(xùn)練后的音頻片段提取模型包括訓(xùn)練后的分類模型和訓(xùn)練后的回歸模型；

所述處理單元，還用于根據(jù)所述訓(xùn)練后的分類模型，對所述目標(biāo)音頻文件的音頻特征進(jìn)行檢測，以判斷所述目標(biāo)音頻文件對應(yīng)的所有音頻類別中是否存在所述類別向量對應(yīng)的音頻類別；

所述處理單元，還用于若所述目標(biāo)音頻文件對應(yīng)的所有音頻類別中存在所述類別向量對應(yīng)的音頻類別，則根據(jù)訓(xùn)練后的回歸模型確定所述目標(biāo)音頻文件中所述類別向量對應(yīng)的音頻片段的起止信息；

所述處理單元，還用于根據(jù)所述起止信息確定所述音頻片段。

9.一種終端，其特征在于，所述終端包括：

存儲器，所述存儲器包括計算機(jī)可讀指令；

與所述存儲器相連的處理器，所述處理器用于執(zhí)行所述計算機(jī)可讀指令，從而使得所述設(shè)備執(zhí)行權(quán)利要求1～7任一項所述的音頻片段的檢測方法。

10.一種計算機(jī)可讀存儲介質(zhì)，其特征在于，包括：所述計算機(jī)可讀存儲介質(zhì)中存儲有程序指令，所述程序指令被處理器執(zhí)行時，實現(xiàn)如權(quán)利要求1-7任一項所述的音頻片段的檢測方法。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技（深圳）有限公司，未經(jīng)騰訊科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201911399043.0/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種基于指紋身份認(rèn)證的體測系統(tǒng)
下一篇：一種3D打印用海水海砂混凝土材料

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】