[發明專利]一種基于多模態特征完備表示的短視頻分類方法在審
| 申請號: | 202110282974.3 | 申請日: | 2021-03-16 |
| 公開(公告)號: | CN113158798A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 井佩光;張麗娟;蘇育挺 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/46;G06K9/62;G06F16/71;G06F16/75;G06F16/78;G06F16/783 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李林娟 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多模態 特征 完備 表示 視頻 分類 方法 | ||
1.一種基于多模態特征完備表示的短視頻分類方法,其特征在于,所述方法包括:
對于短視頻自身內容信息,提出以視覺模態特征為主,從模態缺失角度構建四個子空間并分別獲得潛在的特征表示,對四個子空間的潛在特征表示進一步利用自動編解碼網絡進行融合以保證學習到更魯棒且有效的公共潛在表示;
對于標簽信息,采用逆協方差估計和圖注意網絡探究標簽間的相關性并更新標簽表示,得到與短視頻對應的標簽向量表示;
對公共潛在表示和標簽向量表示提出基于多頭注意的多頭跨模態融合方案,用于獲得短視頻的標簽預測分數;
模型的整體損失函數由傳統的多標簽分類損失和自動編解碼網絡的重建損失組成,用來度量網絡輸出值與實際值之間的差距,并以此來指導網絡找尋模型最優解。
2.根據權利要求1所述的一種基于多模態特征完備表示的短視頻分類方法,其特征在于,所述兩類視覺模態特征潛在表示為:獨特的視覺模態潛在表示和不同模態信息互補下的視覺模態潛在表示。
3.根據權利要求2所述的一種基于多模態特征完備表示的短視頻分類方法,其特征在于,所述獨特的視覺模態潛在表示為:
其中,表示視覺特征的映射器,θv表示待學習的網絡參數,表示視覺模態潛在表示hv的維度是dh;zv表示原始視覺模態特征。
4.根據權利要求3所述的一種基于多模態特征完備表示的短視頻分類方法,其特征在于,所述不同模態信息互補下的視覺模態潛在表示為:
將原始視覺模態特征zv和視覺表示空間下的音頻模態特征相加后送入特征融合映射器φa中,生成音頻模態信息補充后的視覺模態潛在表示
其中,θa:待學習的特征融合映射器參數,向量之間對應元素相加;
軌跡模態信息補充后的視覺模態潛在表示
其中,φt:特征融合映射器,θt:待學習的特征融合映射器參數;
當原始視覺模態特征zv、音頻模態特征za、軌跡模態特征zt都存在時,用音頻信息和軌跡信息聯合補充視覺信息,得到新的視覺模態潛在表示
其中,φat:特征融合映射器,θat:待學習的特征融合映射器參數。
5.根據權利要求1所述的一種基于多模態特征完備表示的短視頻分類方法,其特征在于,所述重建損失函數為:
其中,u為串聯向量,h為視覺模態公共潛在表示,為重建表示,gae(·):編碼網絡,gdg(·):退化網絡,Wae:編碼網絡的待學習參數,Wdg:退化網絡的待學習參數,視覺模態公共潛在表示h的維度是du,重建表示的維度是2dh。
6.根據權利要求1所述的一種基于多模態特征完備表示的短視頻分類方法,其特征在于,所述采用逆協方差估計和圖注意網絡探究標簽間的相關性并更新標簽表示,得到與短視頻對應的標簽向量表示具體為:
引入逆協方差估計,對于給定的標簽矩陣V,尋找逆協方差矩陣S-1來表征標簽的成對關系;
將輸入到該網絡中的標簽矩陣V轉換成新的標簽矩陣,并輸入到圖關系函數G(g)中,計算出新的標簽矩陣下的圖結構S′。
7.根據權利要求1所述的一種基于多模態特征完備表示的短視頻分類方法,其特征在于,所述基于多頭注意的多頭跨模態融合方案為:
利用短視頻視覺特征公共潛在表示查詢標簽,計算相關性,對齊短視頻視覺模態公共潛在表示和標簽矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110282974.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:功率變換器的控制方法、裝置及存儲介質
- 下一篇:一種微創手術機器人柔性操作鉗





