[發明專利]利用對抗雙向交互網絡解決視頻時間文本定位任務的方法有效
| 申請號: | 201910093894.6 | 申請日: | 2019-01-30 |
| 公開(公告)號: | CN109815927B | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 趙洲;成瑀 | 申請(專利權)人: | 杭州一知智能科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 無錫市匯誠永信專利代理事務所(普通合伙) 32260 | 代理人: | 王闖 |
| 地址: | 311200 浙江省杭州市蕭山*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 對抗 雙向 交互 網絡 解決 視頻 時間 文本 定位 任務 方法 | ||
本發明公開了一種利用對抗雙向交互網絡解決視頻時間文本定位任務的方法,主要包括如下步驟:1)設計一種對抗雙向交互網絡模型完成對于視頻片段的定位及定位結果的判別。2)訓練得到最終的對抗雙向交互網絡模型,利用該模型定位出與文本描述相關的視頻片段。相比于一般的視頻時間文本定位解決方案,本發明利用了對抗雙向交互網絡,能夠更好地定位出與文本描述相關的視頻片段。本發明在視頻時間文本定位任務中所取得的效果相比于傳統的方法更好。
技術領域
本發明涉及視頻時間文本定位任務,尤其涉及一種利用對抗雙向交互網絡解決視頻時間文本定位任務的方法。
背景技術
視頻時間文本定位任務是一項十分有挑戰性的任務,目前吸引了很多人的關注。在該任務中需要系統可以針對于某個特定視頻的描述,在視頻中定位出與文本描述相關的視頻片段。目前視頻時間文本定位任務仍然是一個較為新穎的任務,對其的研究還不成熟。與一般的視頻內容理解任務不同,視頻時間文本定位任務需要對于視頻及文本信息的綜合理解,豐富復雜的視頻及文本信息增加了該任務的難度。
目前已有的視頻時間文本定位任務解決方法一般是利用視頻動作定位的傳統方法。使用一個滑動窗口結構來對于視頻進行密集采樣,之后分別計算采集的視頻樣本與所針對的視頻描述文本之間的相關程度,將具有最大相關程度的視頻樣本作為視頻時間文本定位的結果。此種方法由于采樣的密集性需要巨大的計算量,同時該種方法缺乏了對于視頻內容的長程語義理解。為了解決上述問題,本發明使用對抗雙向交互網絡來解決視頻時間文本定位任務,提高視頻時間文本定位任務形成視頻定位片段的準確性。
發明內容
本發明的目的在于解決現有技術中的問題,為了克服現有技術對于視頻時間文本定位任務無法提供較為準確的視頻定位片段的問題,本發明提供一種利用對抗雙向交互網絡解決視頻時間文本定位任務的方法。本發明所采用的具體技術方案是:
利用對抗雙向交互網絡解決視頻時間文本定位任務的方法,包含如下步驟:
1.設計一種雙向交互網絡,基于視頻的每個幀圖像和輸入的文本描述,獲取與文本相關的視頻幀級別的相關程度分布及整個相關程度分布中具有最大聯合相關程度的視頻目標片段。
2.利用步驟1中獲取的與文本相關的視頻幀級別的相關程度分布及整個相關程度分布中具有最大聯合相關程度的視頻目標片段,設計一種輔助判別網絡,驗證步驟1獲取的與文本相關的視頻目標片段的準確性,并利用對抗訓練過程提高視頻時間文本定位的效果。
3.利用步驟1設計的雙向交互網絡與步驟2設計的輔助判別網絡,進行訓練,利用訓練出的雙向交互網絡及輔助判別網絡獲取與文本描述相關的視頻片段。
上述步驟可具體采用如下實現方式:
對于視頻時間文本定位任務中視頻的每個幀輸入到提前訓練好的3維卷積網絡中,獲取視頻的幀級別表達v=(v1,v2,...,vn),其中vi代表視頻中的第i個幀的幀級別表達,n代表視頻中的幀個數。將視頻中各個幀的幀級別表達v=(v1,v2,...,vn)依次輸入到雙向LSTM網絡中,按照如下公式計算得到視頻各個幀的語義表達
其中,與分別代表雙向LSTM網絡中的前向LSTM網絡計算與后向LSTM網絡計算,與代表前向LSTM網絡計算第i次循環的隱層輸出與狀態值,與代表后向LSTM網絡計算第i次循環的隱層輸出與狀態值,代表視頻中的第i個幀的語義表達,代表將與進行連接計算。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州一知智能科技有限公司,未經杭州一知智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910093894.6/2.html,轉載請聲明來源鉆瓜專利網。





