[發明專利]基于空間-時間圖推理網絡的多形態語句視頻定位方法有效
| 申請號: | 202010191264.5 | 申請日: | 2020-03-18 |
| 公開(公告)號: | CN111414845B | 公開(公告)日: | 2023-06-16 |
| 發明(設計)人: | 趙洲;張品涵;張竹 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/82;G06N3/0464;G06N3/048;G06N3/08;G06F17/11 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 空間 時間 推理 網絡 形態 語句 視頻 定位 方法 | ||
本發明公開了一種基于空間?時間圖推理網絡的多形態語句視頻定位方法,屬于自然語言視覺定位領域。本發明首先將視頻解析為空間?時間區域圖,不僅有每個幀的隱式和顯式空間子圖,而且有跨幀的時間動態性子圖。接下來,將文本線索加入到該空間?時間區域圖中,建立多步跨模態圖推理。多步過程可以支持多序關系建模。之后,使用時間定位器確定管道的時間邊界,然后應用具有動態選擇方法的空間定位器將對象在每個幀中定位,生成平滑的管道。本發明對自然語言進行定位時無需對視頻進行修剪,降低了視頻定位的成本;可以有效處理疑問句和陳述句,為更高層的自然語言處理和計算視覺結合研究(如視頻問答等)提供了技術支持,應用前景廣闊。
技術領域
本發明涉及自然語言視覺定位領域,尤其涉及一種基于空間-時間圖推理網絡的多形態語句視頻定位方法。
背景技術
自然語言的視覺定位是視覺理解領域中一項基本而至關重要的任務。該任務的目標是將給定自然語言所描述的對象從時間、空間上在視覺內容中進行定位。近些年,研究人開始關注自然語言(語句)在視頻中的定位,包括時間定位和空間-時間定位。時間定位可以獲得所述物體在視頻中出現的時間片段;空間-時間定位在時間定位的基礎上還要獲得物體出現的區域,這種一系列物體所在區域組成的集合因具有時間和空間上的連續性,因此又被稱作空間-時間管道(spatio-temporal?tube)。
目前人們實現的方法較少而且限制性較強。現有的視頻定位方法經常從修剪后的視頻中提取一組空間-時間管道,然后識別與句子匹配的目標管道。但是,此框架可能無法完成針對多形態語句的空間-時間視頻定位(Spatio-Temporal?Video?Grounding?forMulti-Form?Sentences,STVG)。一方面,該框架的性能在很大程度上取決于候選管道的質量,但是很難在沒有文本線索的情況下預先生成高質量的管道,因為句子可能會在很小的片段中描述對象的短期狀態,但是現有的管道預生成框架只能產生修剪過的視頻中的完整對象管道。另一方面,這些方法僅考慮單管道建模,而忽略對象之間的關系,因此無法處理帶有位置對象的疑問句,只能處理傳統的陳述句。但是,對象關系是STVG任務的重要線索,尤其是對于可能僅提供未知對象與其他對象的交互作用的疑問句,由于缺少對象的顯式特征,定位疑問句只能依賴于未知對象與其他對象之間的關系(例如動作關系和空間關系),說明關系模型的構建和跨模態關系推理至關重要。因此,現有方法無法處理STVG任務。
另外,現有的視覺圖建模方法經常在圖像中構建空間圖,無法利用視頻中的時間動態信息來區分對象動作的細微差異,例如區分“開門”和“關門”。因此,亟需一種能夠解決多形態語句的視頻定位任務的方法,針對給定的未修剪的視頻和有關描述對象的陳述句或疑問句,定位所查詢對象的空間-時間管道。
發明內容
針對現有技術不能解決多形態語句的視頻定位任務的缺陷,本發明提出了一種基于空間-時間圖推理網絡的多形態語句視頻定位方法,首先將視頻解析為空間-時間區域圖,本發明的空間-時間區域圖不僅有每個幀的隱式和顯式空間子圖,而且有跨幀的時間動態性子圖。空間子圖可以通過隱式或顯式注意力機制獲得區域級別的關系,而時間動態性子圖可以將對象的動態性和跨幀變換考慮在內,以進一步提高網絡對物體間關系的理解。接下來,將文本線索加入到該空間-時間區域圖中,建立多步跨模態圖推理,多步過程可以支持多序關系建模。之后,使用時間定位器確定管道的時間邊界,然后應用具有動態選擇方法的空間定位器將對象在每個幀中定位,生成平滑的管道。
為了實現上述目的,本發明采用如下技術方案:
基于空間-時間圖推理網絡的多形態語句視頻定位方法,包括如下步驟:
S1:針對一段視頻,利用Faster-RCNN網絡提取視頻中每一個幀的視覺特征,構成視頻幀的視覺特征集合;并從每一個視頻幀中提取K個區域,得到區域特征向量及區域邊框矢量,構成視頻中幀級別的區域集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010191264.5/2.html,轉載請聲明來源鉆瓜專利網。





