[發明專利]視頻片段定位方法、裝置以及計算機可讀存儲介質在審
| 申請號: | 202111154796.2 | 申請日: | 2021-09-29 |
| 公開(公告)號: | CN113806589A | 公開(公告)日: | 2021-12-17 |
| 發明(設計)人: | 高伽林;孫新;許蒙蒙;周曦 | 申請(專利權)人: | 云從科技集團股份有限公司 |
| 主分類號: | G06F16/783 | 分類號: | G06F16/783;G06F16/78;G06N3/04;G06N3/08 |
| 代理公司: | 北京瀚仁知識產權代理事務所(普通合伙) 11482 | 代理人: | 屠曉旭;陳敏 |
| 地址: | 511457 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 片段 定位 方法 裝置 以及 計算機 可讀 存儲 介質 | ||
1.一種視頻片段定位方法,其特征在于,所述方法包括:
獲取視頻樣本及其標簽并通過下列步驟訓練視頻定位模型,所述標簽包括視頻樣本所包含行為的行為時間和語言描述信息:
控制所述視頻定位模型根據所述視頻樣本中候選視頻片段的候選特征以及所述語言描述信息的語言特征獲取第一融合特征,采用圖卷積網絡并根據所述第一融合特征獲取具有相同起始時間或終止時間的候選視頻片段對應的第二融合特征;
根據所述第二融合特征預測所述候選視頻片段與所述語言描述信息的匹配度,獲取所述候選視頻片段的視頻片段時間與所述行為時間的交并比,根據所述匹配度與所述交并比計算模型損失值,根據所述模型損失值調整模型參數,以完成模型迭代訓練;
采用完成訓練的視頻定位模型并根據目標行為的語言描述信息對目標視頻進行視頻片段定位,獲取所述目標行為對應的視頻片段。
2.根據權利要求1所述的視頻片段定位方法,其特征在于,所述方法還包括通過下列步驟獲取候選視頻片段的候選特征:
獲取所述視頻樣本的視頻特征;
根據所述視頻特征的長度T,構建大小為T×T的二維網格;所述二維網格中每個網格的橫坐標和縱坐標分別表示起始時間ts和終止時間te,所述網格表示時間跨度為(ts,te)的視頻片段;
選取起始時間小于終止時間的網格,對選取到的網格進行稀疏采樣,根據稀疏采樣的結果確定候選視頻片段;
通過下式所示的方法獲取所述候選視頻片段的候選特征F:
其中,所述表示視頻特征,所述A表示候選視頻片段的集合且和分別表示第i個候選視頻片段的起始時間和終止時間,N表示候選視頻片段的總數;Ψ表示針對每個候選視頻片段,將候選視頻片段在起始時間的視頻特征與終止時間的視頻特征進行串聯;
并且/或者,
“獲取第一融合特征”的步驟具體包括:
根據所述候選特征與所述語言特征并通過下式獲取第一特征F1:
其中,所述表示所述語言描述信息的語言特征,所述表示對所述語言特征進行最大池化操作,所述表示對所述語言特征進行最大池化操作后得到的句子特征,所述Conv表示卷積操作,所述|| ||2表示2范數,所述⊙表示內積運算;
根據所述候選特征與所述語言特征并通過下式獲取第二特征F2:
其中,所述R表示關系矩陣且所述T表示轉置操作,所述表示對所述語言特征進行卷積操作后得到的詞語特征,所述表示將映射到視頻特征的特征空間得到的詞語特征,所述表示外積運算;
對所述第一特征F1與所述第二特征F2依次進行特征相加與歸一化處理,得到第一融合特征。
3.根據權利要求1所述的視頻片段定位方法,其特征在于,“獲取具有相同起始時間或終止時間的候選視頻片段對應的第二融合特征”的步驟具體包括:
采用圖卷積網絡并根據所述第一融合特征,生成鄰接矩陣;所述鄰接矩陣包括每個候選視頻片段各自對應的鄰接元素,所述鄰接元素的元素值表示候選視頻片段與其他候選視頻片段是否具有相同的起始時間或終止時間;
根據所述第一融合特征與所述鄰接矩陣,獲取所述第二融合特征;
并且/或者,
“預測所述候選視頻片段與所述語言描述信息的匹配度”的具體步驟包括通過下式所示的方法預測所述候選視頻片段與所述語言描述信息的匹配度PA:
其中,所述表示所述第二融合特征,所述表示所述第一融合特征,所述||表示對所述與所述進行串聯連接,所述Conv表示卷積操作,所述σ表示sigmoid激活函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云從科技集團股份有限公司,未經云從科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111154796.2/1.html,轉載請聲明來源鉆瓜專利網。





