[發明專利]視頻分類方法、裝置、存儲介質及終端設備在審
| 申請號: | 202110321242.0 | 申請日: | 2021-03-25 |
| 公開(公告)號: | CN113032627A | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 王棟 | 申請(專利權)人: | 北京小米移動軟件有限公司;北京小米松果電子有限公司 |
| 主分類號: | G06F16/75 | 分類號: | G06F16/75;G06F16/783;G06K9/62 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 盧夏子 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 分類 方法 裝置 存儲 介質 終端設備 | ||
本公開涉及一種視頻分類方法、裝置、存儲介質及終端設備,該方法包括:通過終端獲取目標視頻;獲取目標視頻對應的圖像特征向量、音頻特征向量以及文本特征向量;將圖像特征向量、音頻特征向量以及文本特征向量按照第一預設拼接順序進行拼接,得到該目標視頻對應的第一特征向量;通過預先訓練的特征融合模型,將圖像特征向量、音頻特征向量以及文本特征向量進行融合,得到該目標視頻對應的第二特征向量;將第一特征向量和第二特征向量按照第二預設拼接順序進行拼接,得到目標視頻對應的第三特征向量;根據第三特征向量和預先訓練的視頻分類模型,確定目標視頻對應的類別。這樣,可以防止目標視頻中信息的丟失,從而提高了視頻分類的準確率。
技術領域
本公開涉及圖像處理技術領域,尤其涉及一種視頻分類方法、裝置、存儲介質及終端設備。
背景技術
隨著網絡多媒體技術的飛速發展,各式各樣的多媒體信息不斷涌現。越來越多的用戶習慣于在網絡上觀看視頻,為了使用戶能夠從大量的視頻中選擇自己想觀看的內容,通常會對視頻進行分類,因此,視頻分類對于實現視頻的管理以及興趣推薦具有十分重要的作用,此外,視頻分類的結果在監控、檢索以及人機交互等領域也被廣泛應用。
相關技術中,可以獲取視頻的圖像特征和音頻特征,并將該圖像特征和音頻特征輸入到循環神經網絡(Recurrent Neural Network,RNN)中,將RNN輸出的結果輸入到邏輯回歸(Logistic Regression,LR)中得到視頻的類型。但是,這種視頻分類方式只是根據單獨的圖像特征和音頻特征對視頻進行分類,無法提取更具表達能力的深層次特征,導致視頻分類的準確率較低。
發明內容
為克服相關技術中存在的問題,本公開提供一種視頻分類方法、裝置、存儲介質及終端設備。
根據本公開實施例的第一方面,提供一種視頻分類方法,包括:通過終端獲取目標視頻;獲取所述目標視頻對應的圖像特征向量、音頻特征向量以及文本特征向量;將所述圖像特征向量、所述音頻特征向量以及所述文本特征向量按照第一預設拼接順序進行拼接,得到所述目標視頻對應的第一特征向量;通過預先訓練的特征融合模型,將所述圖像特征向量、所述音頻特征向量以及所述文本特征向量進行融合,得到所述目標視頻對應的第二特征向量;將所述第一特征向量和所述第二特征向量按照第二預設拼接順序進行拼接,得到所述目標視頻對應的第三特征向量;根據所述第三特征向量和預先訓練的視頻分類模型,確定所述目標視頻對應的類別。
可選地,所述獲取所述目標視頻對應的圖像特征向量、音頻特征向量以及文本特征向量包括:根據所述目標視頻對應的播放時長,確定所述目標視頻對應的預設抽幀間隔;按照所述預設抽幀間隔,從所述目標視頻中抽取所述目標視頻對應的多個目標圖像和多個目標音頻;根據多個所述目標圖像,獲取所述目標視頻對應的圖像特征向量;根據多個所述目標音頻,獲取所述目標視頻對應的音頻特征向量;根據所述目標視頻對應的文本描述信息,生成所述目標視頻對應的文本特征向量。
可選地,所述根據多個所述目標圖像,獲取所述目標視頻對應的圖像特征向量包括:將多個所述目標圖像輸入預先訓練的圖像特征獲取模型,得到所述目標視頻對應的多個局部圖像特征向量;將多個所述局部圖像特征向量輸入預先訓練的特征聚合模型,得到所述目標視頻對應的所述圖像特征向量;所述根據多個所述目標音頻,獲取所述目標視頻對應的音頻特征向量包括:將多個所述目標音頻輸入預先訓練的音頻特征獲取模型,得到所述目標視頻對應的多個局部音頻特征向量;將多個所述局部音頻特征向量輸入所述特征聚合模型,得到所述目標視頻對應的所述音頻特征向量。
可選地,所述根據所述第三特征向量和預先訓練的視頻分類模型,確定所述目標視頻對應的類別包括:將所述第三特征向量作為所述視頻分類模型的輸入,得到所述目標視頻對應的類別。
可選地,所述根據所述第三特征向量和預先訓練的視頻分類模型,確定所述目標視頻對應的類別包括:將所述第三特征向量作為所述視頻分類模型的輸入,得到所述目標視頻對應的每個預設類別的概率;將概率最高的所述預設類別作為所述目標視頻對應的類別并輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米移動軟件有限公司;北京小米松果電子有限公司,未經北京小米移動軟件有限公司;北京小米松果電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110321242.0/2.html,轉載請聲明來源鉆瓜專利網。





