[發(fā)明專利]利用多重交互注意力機制解決視頻中對象關(guān)系問答任務(wù)的方法有效
| 申請?zhí)枺?/td> | 201910965556.7 | 申請日: | 2019-10-11 |
| 公開(公告)號: | CN110727824B | 公開(公告)日: | 2022-04-01 |
| 發(fā)明(設(shè)計)人: | 趙洲;張品涵;金韋克;陳默沙 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06F16/735 | 分類號: | G06F16/735;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 利用 多重 交互 注意力 機制 解決 視頻 對象 關(guān)系 問答 任務(wù) 方法 | ||
本發(fā)明公開了一種利用多重交互注意力機制解決視頻中對象關(guān)系問答任務(wù)的方法,包括如下步驟:針對于一段視頻,獲得幀級別視頻特征;獲得視頻中對象的位置特征和外觀特征;使用多重交互注意力機制,學(xué)習(xí)得到輸入問題的表達;計算時空關(guān)系矩陣;使用多重交互注意力機制,學(xué)習(xí)得到針對問題的幀級別視頻表達;使用多重交互注意力機制,學(xué)習(xí)得到與問題相關(guān)的對象關(guān)系表達;在之前得到的幀級別視頻表達和對象關(guān)系表達基礎(chǔ)上,獲取問題的答案。相比于一般視頻問答解決方案,本發(fā)明利用新型注意力機制,能夠更準確地反映視頻中對象的關(guān)系,產(chǎn)生更加貼切的答案。本發(fā)明在視頻問答中所取得的效果相比于傳統(tǒng)方法更好。
技術(shù)領(lǐng)域
本發(fā)明涉及視頻問答答案生成領(lǐng)域,尤其涉及一種利用多重交互注意力機制解決視頻中對象關(guān)系問答任務(wù)的方法。
背景技術(shù)
視覺問答是一項利用計算機視覺和自然語言處理技術(shù)的重要任務(wù)。給定自然語言問題和參考視覺對象(例如圖像或視頻),視覺問答的目標是自動地根據(jù)視覺內(nèi)容回答問題。
在視頻問答發(fā)展前,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)在圖像問答領(lǐng)域取得了很大的成功,并且有了相對成熟的模型。視頻問答可視為圖像問答的延伸。然而,由于時間結(jié)構(gòu)帶來的復(fù)雜性,使視頻問答變得更具挑戰(zhàn)性,與圖像問答相比,視頻問答的研究發(fā)明相對較少。如何對視頻的時間結(jié)構(gòu)建模、如何處理視頻信息的冗余以及如何獲得多幀帶來的信息,是目前視頻問答領(lǐng)域面臨的幾大挑戰(zhàn)。
現(xiàn)有方法主要關(guān)注時間注意力機制和記憶機制。Jang等人(Yunseok Jang,YaleSong,Youngjae Yu,Youngjin Kim,and Gunhee Kim.2017.Tgif-qa:Toward spatio-temporal reasoning in visual question answering.In IEEE Conference onComputer Vision and Pattern Recognition.2680–8.)提出了一種基于dual-LSTM的方法,同時應(yīng)用空間注意力機制和時間注意力機制。Yu等人(Youngjae Yu,Hyungjin Ko,Jongwook Choi,and Gunhee Kim.2017.End-to-end concept word detection for videocaptioning,retrieval,and question answering.In IEEE Conference on ComputerVision and Pattern Recognition.3261–3269.)提出了一種高級別概念詞檢測器,它將視頻作為輸入,并生成一個概念詞列表作為答案生成的有用語義先驗。但是,上述大多數(shù)方法都依賴于RNN而不考慮對象之間的關(guān)系,無法有效過濾長視頻中大量存在的冗余幀。本發(fā)明的目的在于解決現(xiàn)有技術(shù)中的問題,為了更好地獲取視頻中對象的關(guān)系,來對對象關(guān)系相關(guān)的問題做出回答。
發(fā)明內(nèi)容
本發(fā)明提出了一種用于視頻問答的新模型,稱為多重交互網(wǎng)絡(luò)(Multi-interaction network)。本發(fā)明所采用的具體技術(shù)方案是:
利用多重交互注意力機制解決視頻中對象關(guān)系問答任務(wù)的方法,包括如下步驟:
S1:針對一段視頻,利用殘差神經(jīng)網(wǎng)絡(luò),獲得幀級別視頻特征;
S2:利用Mask-RCNN,獲得視頻中對象的位置特征和外觀特征;
S3:使用多重交互注意力機制,得到輸入問題表達;
S4:根據(jù)步驟S2得到的視頻中對象的位置特征,計算出視頻中對象之間的相對關(guān)系向量,得到時空關(guān)系權(quán)重,進一步構(gòu)建時空關(guān)系矩陣;
S5:在步驟S1得到的幀級別視頻特征和步驟S3得到的輸入問題表達的基礎(chǔ)上,使用多重交互注意力機制,學(xué)習(xí)得到針對問題的幀級別視頻表達;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910965556.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





