[發明專利]視頻文件的分類方法、裝置、介質及電子設備有效
| 申請號: | 202010224680.0 | 申請日: | 2020-03-26 |
| 公開(公告)號: | CN111488489B | 公開(公告)日: | 2023-10-24 |
| 發明(設計)人: | 潘躍;李政;常德丹 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/75 | 分類號: | G06F16/75;G06F16/783 |
| 代理公司: | 深圳市聯鼎知識產權代理有限公司 44232 | 代理人: | 葉虹 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻文件 分類 方法 裝置 介質 電子設備 | ||
1.一種視頻文件的分類方法,其特征在于,包括:
當檢測到上傳的視頻文件時,獲取所述視頻文件對應的描述信息和用戶信息,解碼所述視頻文件,得到所述視頻文件對應的音頻內容以及視頻幀集合;
對所述音頻內容進行文本識別,得到所述音頻內容對應的文本信息,并對所述文本信息和所述描述信息進行分詞處理,得到分詞集合;
根據所述視頻幀集合和所述分詞集合生成與所述視頻文件對應的第一分類結果,根據所述音頻內容生成與所述視頻文件對應的第二分類結果,根據所述用戶信息生成與所述視頻文件對應的第三分類結果;
根據所述第一分類結果、所述第二分類結果以及所述第三分類結果對所述視頻文件進行分類。
2.根據權利要求1所述的方法,其特征在于,獲取所述視頻文件對應的描述信息和用戶信息,包括:
檢測所述視頻文件對應的信息輸入區域內的輸入內容,并將所述輸入內容確定為描述信息;
根據所述視頻文件的上傳請求確定與所述上傳請求對應的用戶信息。
3.根據權利要求1所述的方法,其特征在于,解碼所述視頻文件,得到所述視頻文件對應的音頻內容以及視頻幀集合,包括:
將流媒體協議的所述視頻文件解析為封裝格式的視頻數據;
對所述視頻數據進行解封裝,得到音頻壓縮數據和視頻壓縮數據;
解碼所述音頻壓縮數據得到所述音頻內容,解碼所述視頻壓縮數據得到所述視頻幀集合。
4.根據權利要求1所述的方法,其特征在于,對所述音頻內容進行文本識別,得到所述音頻內容對應的文本信息,包括:
提取所述音頻內容中的音頻特征;
根據預訓練的語言模型和預訓練的聲學模型識別所述音頻特征對應的文本信息。
5.根據權利要求1所述的方法,其特征在于,根據所述視頻幀集合和所述分詞集合生成與所述視頻文件對應的第一分類結果,包括:
將所述視頻幀集合進行預處理得到目標視頻幀集合;其中,所述目標視頻幀集合中的視頻幀數量小于所述視頻幀集合中的視頻幀數量;
將所述目標視頻幀集合輸入第一特征提取網絡,通過所述第一特征提取網絡提取所述目標視頻幀集合對應的視覺特征;
將所述分詞集合輸入第二特征提取網絡,通過所述第二特征提取網絡提取所述分詞集合對應的文本信息特征;
將所述視覺特征和所述文本信息特征進行拼接,并對拼接結果進行分類,得到所述視頻文件對應的第一分類結果。
6.根據權利要求5所述的方法,其特征在于,將所述視頻幀集合進行預處理得到目標視頻幀集合,包括:
將所述視頻幀集合中各視頻幀的當前格式轉換為目標格式;
對格式轉換后的視頻幀集合進行采樣,得到目標視頻幀集合。
7.根據權利要求1所述的方法,其特征在于,根據所述音頻內容生成與所述視頻文件對應的第二分類結果之前,所述方法還包括:
通過各預設類別標簽下的樣本音頻訓練所述音頻分類網絡;
抽取歷史時段中的音頻數據測試訓練后的音頻分類網絡,得到測試結果;
根據所述測試結果將音頻特征高于預設相似度的音頻數據所對應的預設類別進行合并,并根據合并結果更新所述音頻分類網絡的參數。
8.根據權利要求7所述的方法,其特征在于,根據所述音頻內容生成與所述視頻文件對應的第二分類結果,包括:
將所述音頻內容對應的頻譜圖輸入參數更新后的音頻分類網絡,通過所述參數更新后的音頻分類網絡確定所述頻譜圖對應的音頻特征序列;
對所述音頻特征序列進行分類,得到所述視頻文件對應的第二分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010224680.0/1.html,轉載請聲明來源鉆瓜專利網。





