[發明專利]基于跨模態的視頻時刻定位方法、系統及存儲介質有效
| 申請號: | 201810600245.6 | 申請日: | 2018-06-12 |
| 公開(公告)號: | CN108932304B | 公開(公告)日: | 2019-06-18 |
| 發明(設計)人: | 劉萌;聶禮強;王翔;宋雪萌;甘甜;陳寶權 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06F16/783 | 分類號: | G06F16/783;G06F16/78;G06F17/27;G06K9/00;G06K9/62 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250061 *** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 存儲介質 定位問題 模態 文本信息提取 多層感知 模型融合 時序模型 視覺特征 特征提取 文本查詢 文本描述 訓練模型 訓練數據 多模態 準確率 構建 匹配 文本 融合 預測 語言 應用 | ||
本發明公開了基于跨模態的視頻時刻定位方法、系統及存儲介質,將其應用到視頻中某一時刻片段的定位問題中,包括以下步驟:構建語言時序模型對有利于時刻定位的文本信息提取出來并進行特征提取;多模態融合模型融合文本?視覺特征,生成強化的時刻表示特征;多層感知機模型用來預測時刻與文本描述的匹配程度以及時刻片段的起始時間;使用訓練數據端到端的訓練模型。本發明在基于文本查詢的時刻定位問題上,準確率高于現有模型。
技術領域
本發明涉及基于跨模態的視頻時刻定位方法、系統及存儲介質。
背景技術
視頻檢索,即從候選視頻集合中檢索視頻以匹配給定的語言查詢,這方面的研究已經取得了很大進展。然而,時刻檢索,即在給定自然語言描述時從視頻中找到特定的片段(即片刻)符合給定的描述,仍然在很大程度上尚未開發。這項任務也被稱為時序時刻定位,在計算機視覺領域越來越受到關注。特別地,給定一個視頻以及一個像“孩子在其他人旁邊跳舞”這樣的文本查詢,現有解決方案通常使用時間邊界框(即,開始和結束時間點)來定位對應于查詢的時刻片段。
在傳統的視頻檢索任務中,查詢文本通常都是簡單的關鍵詞,用以表示所需要的動作,對象或屬性。相比之下,在時序時刻定位的任務中,給定的查詢文本更加復雜,它可以是任意的自然描述,如短語或完整的句子。例如,“摩天輪第一次進入視野”這個句子是一個典型的文本查詢,強調“摩天輪”實體以“第一次”的時間關系出現。因此,只定位出“摩天輪”這個實體的的模型并不令人滿意,因為該實體在視頻中出現次數可能不止一次。因此,理解這個文本查詢需要找到包含“摩天輪”的時刻并確保它是第一次出現。因此,時序時刻定位的關鍵是要很好地理解復雜的查詢信息,并關注對于定位所需時刻最有意義和最重要的關鍵詞。
之前的工作中,一些研究已經提出了處理這種復雜的查詢的方法。但是,這些工作通常將整個描述傳送到到一個離線語言處理器(例如,Skip-thoughts)或在線工具(LSTM)中為整個查詢建立一個特征向量。盡管他們取得了成功,但僅僅將查詢作為一個特征向量進行整體處理可能會混淆具有豐富時間和語義線索的關鍵字。對于“摩天輪第一次進入視野”這個文本查詢而言,它們可能不能很好的理解諸如“第一次”這樣的單詞,這對于定位期望的時刻(第一個“摩天輪”時刻,而不是包含相似視覺特征的其他時刻)是重要的。正如我們所看到的,文本查詢中詞和時間片段之間的相關性尚未得到充分研究。因此,建立語言處理模型以根據不同的視頻上下文自適應地選擇來自查詢的關鍵文本詞語是至關重要的。
發明內容
為了解決現有技術的不足,本發明提供了基于跨模態的視頻時刻定位方法、系統及存儲介質,通過集成一個語言處理模塊以更好地捕獲文本查詢中關鍵信息對時刻進行定位。我們期望我們的方法利用文本和視覺特征之間的相關性,并突出所需時刻的有用詞匯。首先,我們設計一個語言-時序關注模塊來推導查詢的表示特征,它可以根據查詢文本信息和時刻上下文信息自適應地調整每個單詞特征的重要性。這樣的查詢表示可以識別“哪些單詞是有用的單詞”并且對與時刻定位無關的文本查詢變體更加的魯棒。然后,我們堆疊一個多模態處理模塊來聯合建模文本查詢和時間上下文特征。我們最終訓練一個多層感知機網絡來估計相關性分數和預測時刻與期望時刻的時間位置差。
作為本發明的第一方面,提供了基于跨模態的視頻時刻定位方法;
基于跨模態的視頻時刻定位方法,包括:訓練階段和測試階段;
訓練階段,包括:利用給定的訓練視頻制備訓練數據集,擴展訓練數據集,對擴展訓練數據集里面的每一個當前訓練視頻片段劃分視頻上下文片段;對當前訓練視頻片段和視頻上下文片段分別進行視頻特征提取;構建語言時序注意力模型,將提取的視頻特征和每個當前訓練視頻片段對應的訓練文本描述輸入到語言時序注意力模型中,輸出訓練文本描述對應的文本特征;對視頻特征和文本特征進行特征融合;將特征融合后的特征輸入到多層感知機中,對多層感知機進行訓練得到訓練好的多層感知機;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810600245.6/2.html,轉載請聲明來源鉆瓜專利網。





