[發明專利]一種語言描述引導的視頻時序定位方法、系統在審
| 申請號: | 202010889647.X | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112015947A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 李冠彬;許曉倩;吳捷;毛明志 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/73 | 分類號: | G06F16/73;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 陳旭紅;呂金金 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語言 描述 引導 視頻 時序 定位 方法 系統 | ||
1.一種語言描述引導的視頻時序定位方法,其特征在于,包括:
接收視頻查詢信息組;其中,所述視頻查詢信息組包括查詢文字以及待查詢視頻;
從所述待查詢視頻中獲取目標視頻片段;
從所述查詢文字中提取文字特征信息;其中,所述文字特征信息為所述查詢文字中的文字關鍵詞;
從所述目標視頻片段中提取目標特征信息;其中,所述目標特征信息包括所述目標視頻片段對應的第一邊界位置及第二邊界位置,第一邊界位置為所述目標視頻片段在待查詢視頻中的起始時間,第二邊界位置為所述目標視頻片段在待查詢視頻中的結束時間;
根據所述文字特征信息以及所述目標特征信息,計算所述目標視頻片段對應的目標損失值;
在所述目標損失值不包含于預先設置的損失值集時,通過所述目標損失值、目標視頻片段特征信息以及所述文字特征信息,計算動作參數;
根據所述動作參數調整所述目標視頻片段在所述待查詢視頻中的邊界位置,并返回從所述目標視頻片段中提取目標視頻片段特征信息的步驟。
2.如權利要求1所述的一種語言描述引導的視頻時序定位方法,其特征在于,所述從所述待查詢視頻中獲取目標視頻片段的步驟包括:
對所述待查詢視頻進行特征提取,得到待查詢視頻特征集合;根據所述待查詢視頻特征集合獲取所述目標視頻片段;
其中,所述目標視頻片段包括:第一視頻片段、第二視頻片段及第三視頻片段。
3.如權利要求1所述的一種語言描述引導的視頻時序定位方法,其特征在于,所述從所述查詢文字中提取文字特征信息的步驟包括:
通過GloVe模型對所述查詢文字進行編碼,生成編碼數據;
將所述編碼數據輸入至GRU網絡,生成遠程依賴信息;
標記所述遠程依賴信息的最后一個信息為查詢指令。
4.如權利要求1所述的一種語言描述引導的視頻時序定位方法,其特征在于,所述從所述目標視頻片段中提取目標特征信息的步驟包括:
通過所述文字特征信息、濾波器函數、所述文字特征信息維度及所述目標特征信息,計算所述目標特征信息的注意力權重及所述目標視頻片段信息的注意力特征;
其中,ai為所述目標視頻片段特征信息的注意力權重,E為所述文字特征信息,θ(Fi)為所述濾波器函數,⊙為點積計算,k為所述文字特征信息的維度;A為目標視頻片段特征信息的注意力特征;
根據所述文字特征信息以及目標視頻片段特征信息,計算所述查詢文字信息與目標視頻片段特征信息的對齊分數值:
S=L2Norm(A)⊙L2Norm(E)
其中,S為對齊分數值,A為視頻片段信息的注意力特征,⊙為點積計算,E為所述文字特征信息;
根據所述對齊分數值計算t時刻的獎勵函數;
其中,rt為獎勵函數,為t時刻的對齊分數值,為t-1時刻的對齊分數值;
通過所述目標視頻片段特征信息的注意力權重、所述目標視頻片段特征信息的注意力特征、所述對齊分數值及所述獎勵函數,對所述目標視頻片段進行降維,生成與所述文字特征信息維度相同的目標特征信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010889647.X/1.html,轉載請聲明來源鉆瓜專利網。





