[發(fā)明專利]基于跨模態(tài)哈希學(xué)習(xí)的視頻解析方法有效
| 申請?zhí)枺?/td> | 202110447506.7 | 申請日: | 2021-04-25 |
| 公開(公告)號: | CN113111836B | 公開(公告)日: | 2022-08-19 |
| 發(fā)明(設(shè)計)人: | 賈永坡;申培;胡宇鵬;甘甜;吳建龍;高贊;聶禮強(qiáng) | 申請(專利權(quán))人: | 山東省人工智能研究院;山東大學(xué);河鋼數(shù)字技術(shù)股份有限公司;河鋼集團(tuán)有限公司 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/74;G06V10/77;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 濟(jì)南泉城專利商標(biāo)事務(wù)所 37218 | 代理人: | 支文彬 |
| 地址: | 250013 山*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 跨模態(tài)哈希 學(xué)習(xí) 視頻 解析 方法 | ||
1.一種基于跨模態(tài)哈希學(xué)習(xí)的視頻解析方法,其特征在于,包括:
a)對第k條視頻數(shù)據(jù)Vk進(jìn)行單元分割,k∈{1,...,K},K為視頻數(shù)據(jù)總數(shù),對分割后的視頻數(shù)據(jù)Vk輸入C3D網(wǎng)絡(luò)模型處理,將處理結(jié)果進(jìn)行池化操作得到基于視頻單元的特征表征Vk(0),為第r個視頻單元的特征表征,R為視頻單元的總個數(shù);
b)通過公式基于雙向時序卷積網(wǎng)絡(luò)對Vk(0)進(jìn)行上下文信息感知的特征增強(qiáng),得到第i次雙向卷積處理后的視頻表征Vk(i),式中ε為卷積核大小,ρ為稀疏率,Θ為雙向時序卷積操作,為經(jīng)過第i次雙向卷積處理的第r個視頻單元的特征表征;
c)完成三次雙向時序卷積,得到視頻表征Vk(3),將視頻表征Vk(3)依次輸入多尺度卷積網(wǎng)絡(luò)和多層感知機(jī)網(wǎng)絡(luò)模型處理,得到視頻片段表征集合Ck,Ck={ck,1,ck,2,...,ck,i,...,...,ck,n},ck,i為第i個視頻片段表征,i∈{1,...,n},n為視頻片段總個數(shù);
d)對第k條視頻數(shù)據(jù)Vk的全體查詢語句構(gòu)成的集合Qk通過基于長短時記憶網(wǎng)絡(luò)與多層感知機(jī)網(wǎng)絡(luò)的語義理解,生成相應(yīng)的查詢語句表征集合
e)基于交并比率IoU構(gòu)建跨模態(tài)相似矩陣Mk,將視頻片段表征集合Ck和查詢語句表征集合分別輸入全連接神經(jīng)網(wǎng)絡(luò)后基于跨模態(tài)相似矩陣進(jìn)行跨模態(tài)特征語義對齊,完成跨模態(tài)哈希網(wǎng)絡(luò)模型的建立,通過損失函數(shù)Γ訓(xùn)練跨模態(tài)哈希網(wǎng)絡(luò)模型;
f)將測試集輸入訓(xùn)練后的跨模態(tài)哈希網(wǎng)絡(luò)模型,將測試集中第r條視頻數(shù)據(jù)Vr和對第r條視頻數(shù)據(jù)Vr的全體查詢語句構(gòu)成的集合Qr向漢明空間進(jìn)行特征映射,得到視頻數(shù)據(jù)Vr的哈希特征集合以及集合Qr的哈希特征集合bci為第i個視頻數(shù)據(jù)的哈希特征,i∈{1,…,n},bqj為第j個查詢語句的哈希特征,j∈{1,…,m},m為集合Qr中查詢語句的總個數(shù);
g)通過公式計算得到漢明距離T為轉(zhuǎn)置,L為哈希碼長度,⊙點乘計算,通過漢明距離度量哈希特征集合和得到語義相似性結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于跨模態(tài)哈希學(xué)習(xí)的視頻解析方法,其特征在于:步驟a)中以16幀為最小單元對第k條視頻數(shù)據(jù)Vk進(jìn)行單元分割。
3.根據(jù)權(quán)利要求1所述的基于跨模態(tài)哈希學(xué)習(xí)的視頻解析方法,其特征在于:每次雙向時序卷積操作時增加填充信息,通過公式pi=(ε-1)pi-1計算第i層的填充個數(shù)pi。
4.根據(jù)權(quán)利要求1所述的基于跨模態(tài)哈希學(xué)習(xí)的視頻解析方法,其特征在于:步驟e)中通過公式計算全連接神經(jīng)網(wǎng)絡(luò)的損失函數(shù)Γ1,式中為弗羅尼烏斯范數(shù),T為轉(zhuǎn)置,Y為多模態(tài)特征設(shè)置的統(tǒng)一維度。
5.根據(jù)權(quán)利要求4所述的基于跨模態(tài)哈希學(xué)習(xí)的視頻解析方法,其特征在于:步驟e)中通過公式計算得到轉(zhuǎn)換成二值特征集合通過公式計算得到轉(zhuǎn)換成二值特征集合式中sgn(·)為符號函數(shù),通過公式計算損失函數(shù)Γ2,利用公式Γ=Γ1+λΓ2計算得到損失函數(shù)Γ,λ為超參,,通過損失函數(shù)Γ訓(xùn)練跨模態(tài)哈希網(wǎng)絡(luò)模型,利用adam optimizer函數(shù)求解出跨模態(tài)哈希網(wǎng)絡(luò)模型的全部參數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東省人工智能研究院;山東大學(xué);河鋼數(shù)字技術(shù)股份有限公司;河鋼集團(tuán)有限公司,未經(jīng)山東省人工智能研究院;山東大學(xué);河鋼數(shù)字技術(shù)股份有限公司;河鋼集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110447506.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于魯棒監(jiān)督的深度離散哈希跨模態(tài)檢索方法及系統(tǒng)
- 一種基于相似性保持的跨模態(tài)數(shù)據(jù)的離散哈希檢索方法
- 一種基于對抗學(xué)習(xí)和非對稱哈希的跨模態(tài)檢索方法
- 一種多語義深度監(jiān)督跨模態(tài)哈希檢索方法
- 一種基于層次結(jié)構(gòu)的跨模態(tài)可變長度哈希檢索方法
- 融合有監(jiān)督信息的基于矩陣分解的跨模態(tài)哈希檢索方法
- 一種基于注意力感知機(jī)制的跨模態(tài)哈希檢索方法及系統(tǒng)
- 一種跨模態(tài)哈希檢索方法、終端設(shè)備及存儲介質(zhì)
- 一種基于帶噪標(biāo)簽學(xué)習(xí)的無監(jiān)督跨模態(tài)哈希檢索方法
- 一種基于多模態(tài)注意力機(jī)制的跨模態(tài)哈希方法及系統(tǒng)
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





