[發(fā)明專利]一種基于多模態(tài)特征完備表示的短視頻分類方法在審
| 申請?zhí)枺?/td> | 202110282974.3 | 申請日: | 2021-03-16 |
| 公開(公告)號: | CN113158798A | 公開(公告)日: | 2021-07-23 |
| 發(fā)明(設(shè)計(jì))人: | 井佩光;張麗娟;蘇育挺 | 申請(專利權(quán))人: | 天津大學(xué) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/46;G06K9/62;G06F16/71;G06F16/75;G06F16/78;G06F16/783 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 李林娟 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多模態(tài) 特征 完備 表示 視頻 分類 方法 | ||
本發(fā)明公開了一種基于多模態(tài)特征完備表示的短視頻分類方法,所述方法包括:對于短視頻自身內(nèi)容信息,提出以視覺模態(tài)特征為主,從模態(tài)缺失角度構(gòu)建四個子空間并分別獲得潛在的特征表示,對四個子空間的潛在特征表示進(jìn)一步利用自動編解碼網(wǎng)絡(luò)進(jìn)行融合以保證學(xué)習(xí)到更魯棒且有效的公共潛在表示;對于標(biāo)簽信息,采用逆協(xié)方差估計(jì)和圖注意網(wǎng)絡(luò)探究標(biāo)簽間的相關(guān)性并更新標(biāo)簽表示,得到與短視頻對應(yīng)的標(biāo)簽向量表示;對公共潛在表示和標(biāo)簽向量表示提出基于多頭注意的多頭跨模態(tài)融合方案,用于獲得短視頻的標(biāo)簽預(yù)測分?jǐn)?shù);模型的整體損失函數(shù)由傳統(tǒng)的多標(biāo)簽分類損失和自動編解碼網(wǎng)絡(luò)的重建損失組成,用來度量網(wǎng)絡(luò)輸出值與實(shí)際值之間的差距,并以此來指導(dǎo)網(wǎng)絡(luò)找尋模型最優(yōu)解。
技術(shù)領(lǐng)域
本發(fā)明涉及短視頻分類領(lǐng)域,尤其涉及一種基于多模態(tài)特征完備表示的短視頻分類方法。
背景技術(shù)
近年來,隨著智能終端的普及以及社交網(wǎng)絡(luò)的火熱,越來越多的信息采用多媒體內(nèi)容呈現(xiàn),高清攝像頭、大容量存儲和高速網(wǎng)絡(luò)連接為用戶創(chuàng)造了極其便利的拍攝和分享?xiàng)l件,從而創(chuàng)造了海量的多媒體數(shù)據(jù)。
短視頻作為一種新型的用戶生成內(nèi)容,憑借其創(chuàng)作門檻低、碎片化內(nèi)容以及較強(qiáng)的社交屬性等獨(dú)特優(yōu)勢在社交網(wǎng)絡(luò)中受到了極大的歡迎。尤其是2011年以來,伴隨著移動互聯(lián)網(wǎng)終端的普及和網(wǎng)絡(luò)的提速以及流量資費(fèi)的降低,短視頻迅速獲得了包括各大內(nèi)容平臺、粉絲以及資本等多方的支持與青睞。有數(shù)據(jù)顯示,全球移動視頻流量已經(jīng)占據(jù)移動數(shù)據(jù)總流量的一半以上,且持續(xù)高速增長。規(guī)模龐大的短視頻數(shù)據(jù)很容易湮沒用戶需要的信息,使得用戶難以找到其所期望的短視頻信息內(nèi)容,所以如何有效處理和利用這些信息變得至關(guān)重要。
以深度學(xué)習(xí)為代表的人工智能技術(shù)已經(jīng)成為當(dāng)今最流行的技術(shù)之一,被廣泛運(yùn)用到計(jì)算機(jī)視覺等眾多領(lǐng)域中。
因此,將其引入到短視頻的分類任務(wù)中不僅有利于推動計(jì)算機(jī)視覺以及多媒體領(lǐng)域相關(guān)課題的創(chuàng)新,對于用戶體驗(yàn)的提升以及工業(yè)界的發(fā)展也具有很重要的應(yīng)用價值和現(xiàn)實(shí)意義。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于多模態(tài)特征完備表示的短視頻分類方法,解決了短視頻多標(biāo)簽分類問題并對結(jié)果進(jìn)行評估,詳見下文描述:
一種基于多模態(tài)特征完備表示的短視頻分類方法,所述方法包括:
對于短視頻自身內(nèi)容信息,提出以視覺模態(tài)特征為主,從模態(tài)缺失角度構(gòu)建四個子空間并分別獲得潛在的特征表示,對四個子空間的潛在特征表示進(jìn)一步利用自動編解碼網(wǎng)絡(luò)進(jìn)行融合以保證學(xué)習(xí)到更魯棒且有效的公共潛在表示;
對于標(biāo)簽信息,采用逆協(xié)方差估計(jì)和圖注意網(wǎng)絡(luò)探究標(biāo)簽間的相關(guān)性并更新標(biāo)簽表示,得到與短視頻對應(yīng)的標(biāo)簽向量表示;
對公共潛在表示和標(biāo)簽向量表示提出基于多頭注意的多頭跨模態(tài)融合方案,用于獲得短視頻的標(biāo)簽預(yù)測分?jǐn)?shù);
模型的整體損失函數(shù)由傳統(tǒng)的多標(biāo)簽分類損失和自動編解碼網(wǎng)絡(luò)的重建損失組成,用來度量網(wǎng)絡(luò)輸出值與實(shí)際值之間的差距,并以此來指導(dǎo)網(wǎng)絡(luò)找尋模型最優(yōu)解。
其中,所述兩類視覺模態(tài)特征潛在表示為:獨(dú)特的視覺模態(tài)潛在表示和不同模態(tài)信息互補(bǔ)下的視覺模態(tài)潛在表示。
進(jìn)一步地,所述采用逆協(xié)方差估計(jì)和圖注意網(wǎng)絡(luò)探究標(biāo)簽間的相關(guān)性并更新標(biāo)簽表示,得到與短視頻對應(yīng)的標(biāo)簽向量表示具體為:
引入逆協(xié)方差估計(jì),對于給定的標(biāo)簽矩陣V,尋找逆協(xié)方差矩陣S-1來表征標(biāo)簽的成對關(guān)系,即定義圖關(guān)系函數(shù)來初始化圖結(jié)構(gòu)S;
將輸入到該網(wǎng)絡(luò)中的標(biāo)簽矩陣V轉(zhuǎn)換成新的標(biāo)簽矩陣,并輸入到圖關(guān)系函數(shù)G(·)中,計(jì)算出新的標(biāo)簽矩陣下的圖結(jié)構(gòu)S′。
其中,所述基于多頭注意的多頭跨模態(tài)融合方案為:利用短視頻視覺特征公共潛在表示查詢標(biāo)簽,計(jì)算相關(guān)性,對齊短視頻視覺模態(tài)公共潛在表示和標(biāo)簽矩陣。
本發(fā)明提供的技術(shù)方案的有益效果是:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110282974.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法
- 一種信息傳遞方法、媒體網(wǎng)關(guān)控制器及通信系統(tǒng)
- 一種衛(wèi)星導(dǎo)航系統(tǒng)非完備條件下的定位方法
- 用于并行成像應(yīng)用的多階段磁共振重建
- 一種基于范式轉(zhuǎn)換的不完備系統(tǒng)知識庫生成方法
- 一種基于完備相容類的云平臺不完備大數(shù)據(jù)填補(bǔ)方法
- 基于通信拓?fù)渫陚渚仃嚨闹鲃优潆娋W(wǎng)分布式協(xié)同交互方法
- 分析提取近紅外小分子痕量氣體特征含量的方法和分析儀
- 一種基于對比完備與不完備信息的系統(tǒng)功能結(jié)構(gòu)分析方法
- 一種模糊推理系統(tǒng)的完備決策生成方法
- 基于數(shù)字孿生和AR的物料完備性智能檢測與配置方法





