[發明專利]一種基于語言重建和圖機制的視頻段落定位方法有效
| 申請號: | 202210270425.9 | 申請日: | 2022-03-18 |
| 公開(公告)號: | CN114357124B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 徐行;蔣尋;沈復民;申恒濤 | 申請(專利權)人: | 成都考拉悠然科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/783;G06F40/126;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 成都君合集專利代理事務所(普通合伙) 51228 | 代理人: | 尹新路 |
| 地址: | 610000 四川省成都市自由貿易試驗區成都高新區*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語言 建和 機制 視頻 段落 定位 方法 | ||
1.一種基于語言重建和圖機制的視頻段落定位方法,其特征在于,包括以下步驟:
步驟S1.選擇訓練數據集,提取視頻-段落對作為定位算法模型的輸入;
步驟S2.加載預訓練的3D卷積神經網絡的模型參數,提取所述視頻-段落對中的視頻模態,獲取片段級視頻特征;
步驟S3.提取所述視頻-段落對中的文本模態,使用GloVe編碼將文本模態中的各個單詞表示為固定維度的詞向量作為查詢文本編碼;
步驟S4.使用投影層和正則化處理查詢文本編碼,獲取單詞級文本特征,隨后將單詞級文本特征按句子拆分,并將得到的每個句子依次輸入到雙向門控編碼單元中,提取出句子級文本特征;
步驟S5. 將片段級視頻特征和單詞級文本特征連結在一起,將每個特征點作為一個圖結點,每條邊的強度設為可學習參數,初始化為一張由視頻特征結點和文本特征結點組成的多模態全連接圖,并輸入到多模態圖編碼器中進行多模態特征融合,使得每個結點能夠選擇性地從鄰居結點獲取信息,實現細粒度的特征交互;
步驟S5.1. 將視頻結點和文本結點連結,邊權值設置為可學習值,初始化多模態圖;
步驟S5.2. 將多模態圖傳入多模態圖編碼器中,進行多模態圖建模,通過Transformer編碼器對圖建模層、視頻和文本的位置編碼獲取單層多模態圖建模;
步驟S5.3.多模態圖編碼器由多層步驟S5.2中所述單層多模態圖建模結構構成,采用迭代的方式不斷更新多模態圖;
步驟S6.提取多模態圖編碼器處理后的多模態圖中的視頻特征結點,和步驟S4中提取的句子級文本特征一起輸入到事件特征解碼器中,得到目標事件的多模態特征,并使用多層感知機預測該事件在完整視頻中相對位置;
步驟S7.使用步驟S6中得到的每個目標事件的多模態特征,同時提取多模態圖編碼器處理后的多模態圖中的文本特征結點,一起輸入到語言重建器中,將每個文本特征結點重新翻譯為段落查詢文本,實現查詢文本重構;
步驟S8.根據步驟S6中預測的結果計算時序位置信息損失;
步驟S9.提取事件特征解碼器中的注意力權重矩陣,計算注意力引導損失;
步驟S10.根據步驟S7中文本重構的結果計算語言重構損失;
步驟S11.采用Adam優化器,并使用恒定學習率策略對定位算法模型進行訓練。
2.根據權利要求1所述的一種基于語言重建和圖機制的視頻段落定位方法,其特征在于,還包括對定位算法模型的驗證方式:
在測試階段不需進行語言重建,通過去除訓練完成的基于語言重建和圖機制的視頻段落定位方法中的語言重建器提高模型推理速度;使用去除語言重建器后的剩余部分作為測評模型,對視頻和段落文本對進行視頻多片段檢索,以驗證定位算法模型的效果。
3.根據權利要求1所述的一種基于語言重建和圖機制的視頻段落定位方法,其特征在于,所述步驟S5.2包括:
在圖建模層GM(·)中進行多模態圖推理使每個結點的從其鄰居結點獲取信息,并更新自身和邊的權值。
4.根據權利要求1所述的一種基于語言重建和圖機制的視頻段落定位方法,其特征在于,所述步驟S6包括:
提取多模態圖編碼器處理后的多模態圖中的視頻特征結點,作為事件特征解碼器的已編碼信號輸入,句子級文本特征作為事件特征解碼器的查詢信號輸入,通過自注意力機制挖掘多事件之間的上下文關系,通過跨模態注意力機制得到目標事件的多模態特征,最后使用多層感知機預測各個事件在完整視頻中的相對位置。
5.根據權利要求1所述的一種基于語言重建和圖機制的視頻段落定位方法,其特征在于,所述步驟S7包括:
將步驟S6中得到的目標事件的多模態特征作為語言重建器的已編碼信號輸入,提取多模態圖編碼器處理后的多模態圖中的文本結點作為語言重建器的查詢信號輸入,計算每個文本結點在已編碼詞匯中的概率分布,選擇概率最大的單詞作為重建結果。
6.根據權利要求1所述的一種基于語言重建和圖機制的視頻段落定位方法,其特征在于,所述步驟S8包括:
使用步驟S6中每個事件的預測結果,根據事件的預測結果、全部事件數、實際標注和G-IOU損失函數計算位置信息損失。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都考拉悠然科技有限公司,未經成都考拉悠然科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210270425.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:深度學習模型編譯器的自動化測試方法、裝置及存儲介質
- 下一篇:一種輪胎生產線





