[發明專利]基于查詢的無監督深度學習的多視頻摘要方法有效
| 申請號: | 201910023842.1 | 申請日: | 2019-01-10 |
| 公開(公告)號: | CN109857906B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 冀中;張媛媛;龐彥偉 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/738 | 分類號: | G06F16/738;G06V10/762;G06V10/82;G06V20/40;G06N3/0464;G06N3/0442;G06N3/08 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉國威 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 查詢 監督 深度 學習 視頻 摘要 方法 | ||
1.一種基于查詢的無監督深度學習的多視頻摘要方法,其特征是,首先對同一查詢事件下的多視頻進行鏡頭檢測預處理獲取候選關鍵幀,提取4096維的VGG卷積神經網絡特征和256維的顏色特征;然后將融合的4352維的視頻特征作為可見層H0輸入到深層架構以構造具有隱藏層H1的多層受限玻爾茲曼機RBM,為了整合文檔摘要的查詢信息,在第一層RBM進行兩個不同的過程,包括:基于查詢的初始權重設置和查詢導向懲罰過程;隨后通過低層參數自下而上連接到RBM網絡的第二、三層;在基于深層架構的概念提取之后,通過更高層的隱藏層H3輸出多視頻摘要。
2.如權利要求1所述的基于查詢的無監督深度學習的多視頻摘要方法,其特征是,具體的,提取視頻視覺特征,使用VGG卷積神經網絡和顏色特征得到鏡頭檢測候選關鍵幀的4352維融合特征,記為f=[f1,f2,...fi,...,fv],fi表示第i幀的特征。
3.如權利要求1所述的基于查詢的無監督深度學習的多視頻摘要方法,其特征是,為了得到與主題相關度高的視頻摘要,借助查詢的網絡圖像的輔助信息,在第一層RBM中進行查詢面向初始權重設置和查詢導向懲罰兩方面的操作,Q=[q1,q2,...,qi,...,qm]表示查詢的網絡圖像特征集合,m表示網絡圖像集合幀的個數;
在隨機初始化設置后,如果第i個H0中的節點幀與查詢網絡圖像的平均相似性大于0.5,進行公式(15)操作:
其中,是H0中的可見單元i和H1中隱藏單元j之間的對稱交互項;
在懲罰過程中,與主題相關程度高的候選關鍵幀的重構錯誤比其它幀懲罰更多;
其中γ是懲罰因子,si表示第i個候選關鍵幀與主題相關程度,定義為sim(·,·)表示余弦相似性。
4.如權利要求1所述的基于查詢的無監督深度學習的多視頻摘要方法,其特征是,在基于深層體系結構的概念提取之后,重要性矩陣AF如公式(17)所示:
其中K3表示隱藏層H3中單元總數,A1,A2,A3是層對中的對稱交互項;
從隱藏層H3輸出中選擇重要性分數前80%的幀作為多視頻摘要結果,輸出關鍵幀集合F,得到簡介且有意義的多視頻摘要。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910023842.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種視頻編輯方法及終端設備
- 下一篇:視頻定位方法和裝置





