[發(fā)明專利]利用多重交互注意力機制解決視頻中對象關系問答任務的方法有效
| 申請?zhí)枺?/td> | 201910965556.7 | 申請日: | 2019-10-11 |
| 公開(公告)號: | CN110727824B | 公開(公告)日: | 2022-04-01 |
| 發(fā)明(設計)人: | 趙洲;張品涵;金韋克;陳默沙 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F16/735 | 分類號: | G06F16/735;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 多重 交互 注意力 機制 解決 視頻 對象 關系 問答 任務 方法 | ||
1.利用多重交互注意力機制解決視頻中對象關系問答任務的方法,其特征在于,包括如下步驟:
S1:針對一段視頻,利用殘差神經網絡,獲得幀級別視頻特征;
S2:利用Mask-RCNN,獲得視頻中對象的位置特征和外觀特征;
S3:使用多重交互注意力機制,得到輸入問題表達;
所述多重交互注意力機制具體步驟如下,假設多頭線性層的頭數是1:
第一步,確定兩個輸入矩陣Q=(q1,q2,...,qi)和V=(v1,v2,...,vj),其中且
第二步,創(chuàng)建張量來表示兩個輸入矩陣的每列之間的相互作用,張量K的每列計算方式如下:
其中表示逐元素乘法,
第三步,在張量K上使用卷積層,內核大小為sq×sv;在卷積運算期間,張量K將被分成不同的子張量隨著內核窗口的移動,得到不同的分段交互表示,形成張量P;
第四步,利用去卷積層將張量P恢復到原始大小(lq×lv×dk),因此,獲得一個新的張量M,其中包含分段交互信息;
第五步,在張量K和M上使用與縮放點積注意力機制類似的求和方法對張量大小為dk的維度進行壓縮,分別得到逐元素權重矩陣和逐段權重矩陣
第六步,忽略多頭步驟和比例因子,多重交互注意力機制的最終輸出由下式給出:
其中W是可選的外部權重矩陣;
S4:根據步驟S2得到的視頻中對象的位置特征,計算出視頻中對象之間的相對關系向量,得到時空關系權重,進一步構建時空關系矩陣;
S5:在步驟S1得到的幀級別視頻特征和步驟S3得到的輸入問題表達的基礎上,使用多重交互注意力機制,學習得到針對問題的幀級別視頻表達;
S6:根據步驟S2得到的視頻中對象的外觀特征、步驟S3得到的輸入問題表達和步驟S4得到的時空關系矩陣的基礎上,使用多重交互注意力機制,得到與問題相關的對象關系表達;
S7:根據步驟S5得到的針對問題的幀級別視頻表達和步驟S6得到的與問題相關的對象關系表達,獲取針對視頻所問問題的答案。
2.如權利要求1所述的利用多重交互注意力機制解決視頻中對象關系問答任務的方法,其特征在于所述步驟S1具體為:
針對一段視頻,將該視頻輸入訓練好的殘差神經網絡,輸出幀級別視頻特征其中M(f)代表視頻的幀數,代表視頻第j幀的特征向量。
3.如權利要求1所述的利用多重交互注意力機制解決視頻中對象關系問答任務的方法,其特征在于所述步驟S2具體為:
針對一段視頻,將該視頻輸入Mask-RCNN,輸出視頻中對象的位置特征和外觀特征其中fil和fia分別表示視頻中第i個對象的位置特征向量和外觀特征向量,N是視頻中檢測到的對象數量;所述位置特征向量fil是一個五維坐標,表示為(xi,yi,wi,hi,ti),其中xi和yi分別表示視頻中第i個對象邊界框中心點的橫坐標和縱坐標,wi和hi分別表示視頻中第i個對象邊界框的寬度和高度,ti表示視頻中第i個對象所屬幀的序號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910965556.7/1.html,轉載請聲明來源鉆瓜專利網。





