[發明專利]一種基于語言重建和圖機制的視頻段落定位方法有效
| 申請號: | 202210270425.9 | 申請日: | 2022-03-18 |
| 公開(公告)號: | CN114357124B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 徐行;蔣尋;沈復民;申恒濤 | 申請(專利權)人: | 成都考拉悠然科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/783;G06F40/126;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 成都君合集專利代理事務所(普通合伙) 51228 | 代理人: | 尹新路 |
| 地址: | 610000 四川省成都市自由貿易試驗區成都高新區*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語言 建和 機制 視頻 段落 定位 方法 | ||
本發明涉及多模態視頻理解中的跨模態內容檢索技術領域,公開了一種基于語言重建和圖機制的視頻段落定位方法,包括:選擇數據集,構建視頻段落,使用損失函數訓練模型,最后驗證模型效果。本發明用于提高細粒度的異構數據之間的信息交互能力,增強對視頻內容的理解,提高模型對視頻?文本的跨模態內容理解能力。本發明可用于各種多模態視頻理解場合,如網絡視頻APP、智慧安防系統、大規模視頻內容檢索等,可改善用戶軟件使用體驗,提高視頻、安防、社會治理等相關領域工作人員的工作效率。
技術領域
本發明涉及多模態視頻理解中的跨模態內容檢索技術領域,具體地說,是一種基于語言重建和圖機制的視頻段落定位方法,用于提高細粒度的異構數據之間的信息交互能力,增強對視頻內容的理解,提高模型對視頻-文本的跨模態內容理解能力。
背景技術
作為互聯網時代的多媒體技術熱點,多模態視頻理解在近年來在吸引了眾多來自工業界和學術界的目光。時序語言定位技術是多模態視頻理解中最具挑戰性的任務之一,其旨在根據給定的查詢文本信息,從未經裁剪過的長視頻中進行視頻片段級別的檢索,要求計算機定位查詢文本所描述的事件在此長視頻中的片段位置。時序語言定位技術存在較廣泛的運用場景:隨著大媒體時代的逐步來臨,互聯網視頻審核工作也開始變得繁重起來,通過應用時序語言定位技術,我們可以實現細粒度的跨模態視頻內容檢索,把人力從繁瑣的視頻審核和查找中解放出來。同時,此項技術還可以部署在智能安防、社會治理、人機交互等領域,有效改善用戶使用體驗,提高工作效率。
根據查詢文本的形式,目前時序語言定位技術可以分為兩類,第一種為視頻句子定位,即查詢文本僅為單個句子,檢索目標為單個事件,算法模型以“一對多”的形式從包含多個事件的長視頻中檢索出目標片段;第二種為視頻段落定位,查詢文本為包含多個句子的段落,描述了復數個事件,算法模型以“多對多”的形式完成各個事件片段的檢索。在過去十年里,視頻句子定位技術一直是研究的熱點,并取得了較大的發展,但隨著多模態數據的增加,這種單一事件定位機制的弊端便逐漸暴露了出來:例如,針對多個類似事件出現在視頻中時,視頻句子定位很容易混淆多個事件的邏輯關系從而導致錯誤定位,這是由于其僅利用視頻進行事件級別的上下文建模,而忽略了文本模態的上下文建模,造成模型對視頻內容理解的不充分,在實際使用中,面對反復出現的相同或相近事件,事件級別的文本上下文缺失則導致了事件片段的錯誤檢索。而視頻段落定位方法,通過輸入多個事件的描述語句作為查詢文本,可以從文本模態挖掘出更多的事件級別的上下文信息,從而降低錯誤對齊的可能性。
但是,視頻段落定位中復數個事件的定位,也帶來了新的挑戰。首先,采用段落作為查詢文本,會呈現出更多的復雜性,導致模態融合的難度變大,由于“多對多”的定位方式,在模態融合中每個句子都是對視頻中各個事件是可見的,從而帶來更高的誤對齊可能性。其次,雖然可以靠保持每個句子的時序關系,以提供足夠的時間信息,但隨著句子的增多,這種方法也要求我們的模型具有更好的長程上下文建模能力。
因此,為了解決現有視頻段落定位的技術問題,本發明提供了一種基于語言重建和圖機制的視頻段落定位方法,通過向Transformer引入多模態圖機制,提高細粒度的異構數據之間的信息交互能力;通過事件特征解碼器在多個事件之間進行上下文建模,增強對視頻內容的理解;同時設計了一個語言重建器,對查詢文本進行重構,進一步提高模型對視頻-文本的跨模態內容理解能力。
發明內容
本發明的目的在于提供一種基于語言重建和圖機制的視頻段落定位方法,通過向Transformer引入多模態圖機制,提高細粒度的異構數據之間的信息交互能力;通過事件特征解碼器在多個事件之間進行上下文建模,增強對視頻內容的理解;同時設計了一個語言重建器,對查詢文本進行重構,進一步提高模型對視頻-文本的跨模態內容理解能力。
本發明通過下述技術方案實現:一種基于語言重建和圖機制的視頻段落定位方法,包括以下步驟:
步驟S1.選擇訓練數據集,提取視頻-段落對作為定位算法模型的輸入;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都考拉悠然科技有限公司,未經成都考拉悠然科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210270425.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:深度學習模型編譯器的自動化測試方法、裝置及存儲介質
- 下一篇:一種輪胎生產線





