[發明專利]一種語言描述引導的視頻時序定位方法有效
| 申請號: | 202010040451.3 | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111274438B | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 李冠彬;吳捷;林倞 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/73 | 分類號: | G06F16/73;G06N3/0464;G06N3/048;G06N3/08;G06V10/80;G06V20/40;G06V10/82 |
| 代理公司: | 廣州容大知識產權代理事務所(普通合伙) 44326 | 代理人: | 劉新年 |
| 地址: | 510275 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語言 描述 引導 視頻 時序 定位 方法 | ||
本發明公開了一種語言描述引導的視頻時序定位方法,包括如下步驟:步驟S1,提取跨模態特征的多模態特征編碼網絡,以用于學習視頻和自然語言的跨模態信息,獲得所輸入的語言和視覺模態的多模態融合表征;步驟S2,采用層次化的樹狀結構策略,對跨模態信息進行層次化分解;步驟S3,采用漸進強化學習機制,通過兩個任務導向的獎勵來提供正確的學分分配,鼓勵樹狀結構中的不同策略的相互促進,本發明通過基于樹結構的漸進強化學習框架來模擬人類由粗到精的決策過程,可以有效地分解復雜的動作策略,在增加搜索空間的同時減少搜索步驟的數量,以更合理的方式獲得更令人印象深刻的結果。
技術領域
本發明涉及計算機視覺技術領域,特別是涉及一種基于樹狀結構和漸進強化學習來實現語言描述引導的視頻時序定位方法。
背景技術
自然語言的視頻時序定位這一任務是計算機視覺和視頻分析領域新興的又具有挑戰性的任務。其目標是確定未修剪視頻中與給定自然語言對應的片段的時間邊界。該任務與動作時序定位任務十分相關的,與動作時序定位任務相比,該任務更具挑戰性:1)其不僅沒有預定義的動作列表與標簽,而且可能包含復雜的描述。2)該任務需要模型能夠建立語言模態與視覺模態的關系,對多模態特征進行建模,對自然語言和視頻內容有深入的理解。自然語言的視頻時序定位任務涉及到視頻分析、多模態表示、多模態交互、信息檢索等許多高層的人工智能任務。
基于時間滑動窗口的遍歷排序方法近年來在該領域取得了非常好的成績。該方法首先通過設置滑動窗口來生成大量的候選邊界框,接著把候選邊界的視頻信息送到匹配網絡中得到置信度得分,最后根據置信度得分來獲得整個視頻的定位/預測結果。然而,該方法依賴于外部滑動窗口的匹配和排序,導致了效率低下,邊界框的不靈活性和額外的空間消耗,而且該方法也偏離了人的感知機制。
發明內容
為克服上述現有技術存在的不足,本發明之目的在于提供一種語言描述引導的視頻時序定位方法,以通過基于樹結構的漸進強化學習框架來模擬人類由粗到精的決策過程,可以有效地分解復雜的動作策略,在增加搜索空間的同時減少搜索步驟的數量,以更合理的方式獲得更令人印象深刻的結果。
為達上述目的,本發明提出一種語言描述引導的視頻時序定位方法,包括如下步驟:
步驟S1,提取跨模態特征的多模態特征編碼網絡,以用于學習視頻和自然語言的跨模態信息,獲得所輸入的語言和視覺模態的多模態融合表征;
步驟S2,采用層次化的樹狀結構策略,對跨模態信息進行層次化分解;
步驟S3,采用漸進強化學習機制,通過兩個任務導向的獎勵來提供正確的學分分配,鼓勵樹狀結構中的不同策略的相互促進。
優選地,步驟S1進一步包括:
步驟S100,利用3D卷積神經網絡提取輸入視頻的全局和當前邊界框內視頻的局部特征;
步驟S101,利用Skip-thought技術提取自然語言描述的全局表示;
步驟S102,根據上述特征,利用門關注機制提取語言和視覺模態的多模態融合表征。
優選地,于步驟S1中,利用3D卷積神經網絡提取輸入視頻的全局特征Vg和當前邊界框內視頻的局部表示然后利用Skip-thought技術來提取自然語言描述的全局表示E,最后采用門注意力機制來獲取多模態表示:
其中,和是分別表示全局與局部的多模態關注表示,σ是激活函數logistic?sigmoid,表示向量點乘。
優選地,于步驟S2中,所述樹狀結構策略包含根策略和葉策略,所述根策略決定主要依賴哪個子葉策略,葉策略對應于五個高級語義分支,所選的語義分支通過相應的子網絡推理一個該分支下更加精煉的動作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010040451.3/2.html,轉載請聲明來源鉆瓜專利網。





