[發明專利]一種基于語法分析樹上注意力機制的深度學習視頻問答方法及系統有效
| 申請號: | 201810201163.4 | 申請日: | 2018-03-12 |
| 公開(公告)號: | CN108549658B | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 薛弘揚;蔡登;趙洲 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/783 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 馬士林 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語法分析 樹上 注意力 機制 深度 學習 視頻 問答 方法 系統 | ||
本發明公開了一種基于語法分析樹上注意力機制的深度學習視頻問答方法及系統,包括以下步驟:(1)對輸入的視頻序列進行采樣,得到一系列視頻幀,然后用預訓練的卷積神經網絡抽取并保存每幀視頻的特征;(2)對輸入的自然語言問句,利用語法樹分析工具建立語法樹;(3)根據語法樹的結構,確定深度神經網絡的結構;(4)對深度神經網絡進行自底向上的計算得到最終的輸出結果;(5)將建立的深度神經網絡在數據集上進行訓練;(6)利用訓練好的模型,按步驟1至4輸入數據得到輸出結果,在答案庫中選擇問題的答案作為輸出。利用本發明可以大大提高視頻問答結果的準確率,尤其可以提升在復雜及較長問句上的結果。
技術領域
本發明涉及計算機視覺和自然語言處理領域,具體涉及一種基于語法分析樹上注意力機制的深度學習視頻問答方法及系統。
背景技術
一直以來,計算機視覺是人工智能研究的重要方向之一。計算機視覺的終極目標是賦予計算機理解視覺信息的能力。相比于物體檢測、識別,圖像分割等任務,視頻問答更加接近于理解視覺信息的本質。給定一段視頻和一個自然語言問句,視頻問答的任務是要結合這個問句和視頻信息,給出問題的答案。視頻問答不僅僅是通往視覺信息理解的一條重要道路,同時也在實際中有著許多重要的應用,比如應用于智能機器人與人的交互,幫助殘障人士,早期教育等等。
最早的視覺問答系統,對視覺信息和自然語言問句采用獨立編碼的方式進行特征提取。ICCV2015年會議論文集,Vqa:Visual question answering,2425-2433頁公開了一種獨立編碼視覺和自然語言特征,然后融合兩者進行答案選擇的方法——LSTM Q+norm I。該方法采用卷積神經網絡提取圖片特征,同時利用LSTM網絡計算自然語言問句的特征,然后將兩種特征拼接,最后使用全連層計算最終結果。之后出現的視覺問答方法,大多側重于如何更好地處理視覺信息。為此,許多基于注意力機制的方法被發明出來,并且取得了顯著的效果,成為了解決這類問題的主流的思路。注意力機制的本質是對輸入的自然語言問句進行編碼,然后在大范圍的時間和空間上,摒棄大量無用的視覺信息,找到和問句相關并且對回答最有幫助的時空范圍。CVPR 2016年會議論文集,Stacked attention networks forimage question answering,21-29頁公開了一種針對圖像的空間注意力機制。空間注意力機制將圖像分劃為若干區域,然后通過注意力層計算問句在不同區域上的注意力分布,得到最后的融合特征,再解碼得到答案。后來,隨著視覺問答系統開始考慮更加復雜的視頻,研究者們將空間上的注意力機制擴展到了時間上,即計算問句在時間軸上的注意力分布。與此同時,各種各樣的注意力機制也被提出來,但這些方法幾乎沒有考慮自然語言本身的復雜性,基本上都將整個自然語言語句視作整體。
AAAI2017年會議論文,Leveraging Video Descriptions to Learn VideoQuestion Answering,4334-4340頁公開了一種基于時間注意力機制的方法E-SA和一種基于序列到序列學習的方法E-SS。其中E-SS先對視頻幀和自然語言語句視作一個序列,按順序用一個LSTM網絡進行編碼,隨后直接解碼得到答案。E-SA方法則加入了時間注意力機制,問句依然采用LSTM編碼,但對問句的每個單詞都需計算其在視頻幀上的注意力權值分布,然后計算加權特征,最后再作為LSTM的輸入。雖然E-SA方法對語句的考慮深入到了單詞級別,然而更為重要的信息——語句的語法結構,依然沒有被考慮。
在自然語言處理領域,許多時候,語句的語法結構被證明為更加有效,比如處理語句的情感分析等等問題。而之前視頻問答的這些注意力機制,如E-SA方法,全都建立在線性結構的語句模型上,語句蘊含的大量結構信息沒有被有效的利用。而在句子較長時,線性結構的有效性將急劇下降。與此同時,有些單詞并沒有視覺意義,它們僅僅是語言結構的一部分,因此不應該計算其在視覺空間上的注意力分布。現有的方法,如E-SA,也沒有對這些單詞加以區分。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810201163.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種常用數據緩存系統
- 下一篇:一種數據倉庫管理系統及管理方法





