[發明專利]一種語言描述引導的視頻時序定位方法有效
| 申請號: | 202010040451.3 | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111274438B | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 李冠彬;吳捷;林倞 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/73 | 分類號: | G06F16/73;G06N3/0464;G06N3/048;G06N3/08;G06V10/80;G06V20/40;G06V10/82 |
| 代理公司: | 廣州容大知識產權代理事務所(普通合伙) 44326 | 代理人: | 劉新年 |
| 地址: | 510275 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語言 描述 引導 視頻 時序 定位 方法 | ||
1.一種語言描述引導的視頻時序定位方法,包括如下步驟:
步驟S1,提取跨模態特征的多模態特征編碼網絡,以用于學習視頻和自然語言的跨模態信息,獲得所輸入的語言和視覺模態的多模態融合表征;
步驟S2,采用層次化的樹狀結構策略,對跨模態信息進行層次化分解;
步驟S3,采用漸進強化學習機制,通過兩個任務導向的獎勵來提供正確的學分分配,鼓勵樹狀結構中的不同策略的相互促進;
于步驟S2中,所述樹狀結構策略包含根策略和葉策略,所述根策略決定主要依賴哪個子葉策略,葉策略對應于五個高級語義分支,所選的語義分支通過相應的子網絡推理一個該分支下更加精煉的動作;
所述五個高級語義分支分別為尺度變化,左顯著移動,右顯著移動,左精細調整以及右精細調整;
步驟S3進一步包括:
步驟S300,利用外部獎賞訓練葉策略的actor分支;
步驟S301,用MSE損失函數訓練葉策略的critic分支;
步驟S302,利用外部獎賞和內部獎賞相結合的方法來訓練根策略的actor分支;
步驟S303,利用MSE損失函數訓練根策略的critic分支;
步驟S304,基于漸進強化學習機制,根據迭代次數計算目前選擇的策略并訓練;
于步驟S300中,所述葉策略的獎勵函數揭示了原始動作對當前環境的影響,其在外部環境中直接獲得:
其中ε代表的是獎勵系數,Ut代表的是當前時刻的IoU大小,Ut-1代表的是上一時刻的IoU大小;
所述根策略的獎勵函數設計如下:
為遍歷所有可能的分支,并將相應的原始操作推理到環境中,生成5個不同的IoU中的最大IoU。
2.如權利要求1所述的一種語言描述引導的視頻時序定位方法,其特征在于,步驟S1進一步包括:
步驟S100,利用3D卷積神經網絡提取輸入視頻的全局和當前邊界框內視頻的局部特征;
步驟S101,利用Skip-thought技術提取自然語言描述的全局表示;
步驟S102,根據上述特征,利用門關注機制提取語言和視覺模態的多模態融合表征。
3.如權利要求2所述的一種語言描述引導的視頻時序定位方法,其特征在于:于步驟S1中,利用3D卷積神經網絡提取輸入視頻的全局特征Vg和當前邊界框內視頻的局部表示然后利用Skip-thought技術來提取自然語言描述的全局表示E,最后采用門注意力機制來獲取多模態表示:
其中,和分別表示全局與局部的多模態關注表示,σ是激活函數logisticsigmoid,⊙表示向量點乘。
4.如權利要求1所述的一種語言描述引導的視頻時序定位方法,其特征在于,于步驟S304中,所述漸進強化學習機制為:對于每一組k迭代,漸進強化學習保持一個策略固定,只訓練另一個策略,當達到k次迭代時,它會切換訓練的策略。
5.如權利要求4所述的一種語言描述引導的視頻時序定位方法,其特征在于,基于樹形結構策略的漸進強化學習的交替訓練過程概括為:
其中是一個指示訓練策略選擇的二進制變量,i表示整個訓練過程中的迭代次數,是取除法運算的下限整數,mod是模函數,Lleaf為訓練所述葉策略的損失函數,Lroot為訓練所述根策略的損失函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010040451.3/1.html,轉載請聲明來源鉆瓜專利網。





