[發明專利]基于注意力回歸的視頻時序句子定位方法及裝置在審
| 申請號: | 201810367989.8 | 申請日: | 2018-04-23 |
| 公開(公告)號: | CN108647255A | 公開(公告)日: | 2018-10-12 |
| 發明(設計)人: | 朱文武;袁藝天 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張潤 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 句子 注意力 加權特征 視頻時序 視頻 定位方法及裝置 回歸 句子內容 權值向量 視頻片段 卷積神經網絡 定位準確性 對視頻片段 上下文信息 注意力機制 定位過程 定位結果 記憶網絡 詞向量 多模態 魯棒性 權重 對稱 三維 關聯 輸出 | ||
本發明公開了一種基于注意力回歸的視頻時序句子定位方法及裝置,其中,方法包括以下步驟:根據三維卷積神經網絡和Glove詞向量機制,并在此基礎上利用雙向長短時記憶網絡對視頻片段和句子進行編碼,以表征視頻片段內容和句子內容;根據視頻片段內容和句子內容通過多模態注意力機制建立視頻與句子之間的對稱關聯,以獲取視頻和句子的注意力權值向量與注意力加權特征;根據視頻和句子的注意力權值向量或注意力加權特征,通過基于注意力權重的回歸機制或基于注意力加權特征的回歸機制輸出得到視頻時序句子的定位結果。該方法能夠保持視頻和句子中的上下文信息,提升了句子定位過程的效率,以達到提升句子定位速度、定位準確性和定位魯棒性的目的。
技術領域
本發明涉及計算機視覺技術領域,特別涉及一種基于注意力回歸的視頻時序句子定位方法及裝置。
背景技術
現有技術中,視頻時序句子定位方法主要為:構建視頻與句子之間的統一表征空間,在視頻中進行掃描產生若干待選定位視頻段,將句子與待選定位視頻段投影到統一表征空間進行比較并定位;在視頻中進行掃描產生若干待選定位視頻段,將待選定位視頻段的視覺特征與句子的文本特征融合產生多模態特征。在多模態特征的基礎上進行時序回歸,產生待選定位視頻段與預測定位視頻段之間的時間偏差值,并將待選定位視頻段移動到預測位置。
現有技術中采用的方法具有如下缺陷:在視頻中進行掃描產生待選定位視頻段這一做法計算成本較高,無法適應長視頻的處理,因而以上視頻時序句子定位方法的可擴展性不強;將待選定位視頻段從全局視頻中分離出來獨立處理,阻隔了特定視頻內容與視頻上下文信息的交互,而視頻上下文信息對句子的定位至關重要。因此,以上視頻時序句子定位方法的準確率不高;以上方法都直接采用一般的長短時記憶網絡提取句子特征,忽略了句子中對于時序定位的關鍵信息,因此它們對句子信息的挖掘還不夠充分。
發明內容
本發明旨在至少在一定程度上解決相關技術中的技術問題之一。
為此,本發明的一個目的在于提出一種提升句子定位速度、定位準確性和定位魯棒性的目的基于注意力回歸的視頻時序句子定位方法。
本發明的另一個目的在于提出一種基于注意力回歸的視頻時序句子定位裝置。
為達到上述目的,本發明一方面實施例提出了一種基于注意力回歸的視頻時序句子定位方法,包括以下步驟:根據三維卷積神經網絡和Glove詞向量機制,并在此基礎上利用雙向長短時記憶網絡對視頻片段和句子進行編碼,以表征視頻片段內容和句子內容;根據視頻片段內容和句子內容通過多模態注意力機制建立視頻與句子之間的對稱關聯,以獲取視頻和句子的注意力權值向量與注意力加權特征;根據視頻和句子的注意力權值向量或注意力加權特征,通過基于注意力權重的回歸機制或基于注意力加權特征的回歸機制輸出得到視頻時序句子的定位結果。
本發明實施例的基于注意力回歸的視頻時序句子定位方法,通過表征視頻片段內容和句子內容保持二者的上下文信息,并結合多模態注意力機制建立視頻與句子之間的聯系,進一步根據獲取的視頻和句子的注意力權值向量與注意力加權特征,回歸出視頻時序句子的定位結果,以達到提升句子定位速度、定位準確性和定位魯棒性的目的。
另外,根據本發明上述實施例的基于注意力回歸的視頻時序句子定位方法還可以具有以下附加的技術特征:
進一步地,在本發明的一個實施例中,所述根據三維卷積神經網絡和Glove詞向量機制,并在此基礎上利用雙向長短時記憶網絡對視頻片段和句子進行編碼,以表征視頻片段內容和句子內容,進一步包括:表征所述視頻片段內容的和融合全局視頻句子的上下文信息,并采用Glove詞向量和雙向長短時記憶網絡根據句子的上下文信息表征句子的每個單詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810367989.8/2.html,轉載請聲明來源鉆瓜專利網。





