[發明專利]一種基于時序卷積網絡的視頻摘要方法在審
| 申請號: | 202310067028.6 | 申請日: | 2023-02-01 |
| 公開(公告)號: | CN116168323A | 公開(公告)日: | 2023-05-26 |
| 發明(設計)人: | 李輝;金克;李浩然;戚學欣;陳榮;郭世凱 | 申請(專利權)人: | 大連海事大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/82;G06V10/74;G06N3/0464;G06N3/0442;G06N3/0455;G06N3/049;G06N3/048;G06N3/047;G06N3/088;G06N3/0475;G06N3/094 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 高意;李洪福 |
| 地址: | 116026 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時序 卷積 網絡 視頻 摘要 方法 | ||
本發明提供一種基于時序卷積網絡的視頻摘要方法,包括:獲取視頻數據集;基于獲取的視頻數據集,提取視頻特征;將提取的視頻特征輸入深度摘要網絡,捕獲視頻幀的重要性;通過判別器指導深度摘要網絡的訓練;對深度摘要網絡進行訓練;基于訓練后的深度摘要網絡,進行視頻摘要。本發明通過使用時序卷積網絡和自注意力的方法來訓練視頻摘要模型,不僅考慮了視頻幀之間的長期依賴關系,還考慮了視頻固有的時間順序屬性,并且能夠利用GPU并行計算的優勢加快訓練速度,最后還使用基于GAN的無監督的方法解決了對于人工注釋的依賴,可以在一定程度上提高視頻摘要傳達原始視頻含義的能力,并且能夠提高摘要效率。
技術領域
本發明涉及視頻圖像處理技術領域,具體而言,尤其涉及一種基于時序卷積網絡的視頻摘要方法。
背景技術
隨著社交網絡的發展,網絡視頻成為了人們獲取信息的重要方式。無論是學習還是工作,人們都被海量的視頻包圍著,尋找需要的視頻往往要耗費大量的時間,如何在海量的視頻中獲取需要的視頻成為一大難題,為此,視頻摘要技術應運而生,它從冗長的視頻中提取關鍵幀/關鍵片段,生成能夠傳達原始視頻含義的簡明概要。人們可以根據摘要快速了解視頻內容,并決定是否詳細觀看。在理想情況下,視頻摘要應該具有代表性和多樣性,并且能夠有效的傳達原視頻的重要信息。
目前已經提出的關于視頻摘要的方法主要有兩類:一是基于人工標準的技術,二是基于深度學習的技術。基于人工標準的技術如MBF和Story-Driven,它們收集視頻的各種屬性,根據人工設置的標準優先選擇和處理符合標準的關鍵幀和關鍵鏡頭,進而將這些關鍵幀和關鍵鏡頭組合成視頻摘要?;谏疃葘W習的技術如GL-RPE和CA-SUM,它們利用深度神經網絡將視頻幀嵌入到一個高維向量空間中,在向量空間中學習幀向量之間的依賴關系,通過建立不同幀之間的關系得出當前幀的被選為關鍵幀的可能性。
公開號為CN115190357A的專利文獻公開了一種視頻摘要生成方法和裝置,包括如下步驟:采用自注意力計算的方式,生成基于用戶行為數據的注意力編碼參數;基于所述用戶的注意力編碼參數,確定目標視頻的每個片段是否為所述用戶的興趣片段,并從所述興趣片段中提取出興趣幀;采用注意力計算方式,對所述興趣幀進行融合處理,得到所述目標視頻的視頻摘要。
公開號為CN114979801A的專利文獻公開了一種基于雙向卷積長短期記憶網絡的動態視頻摘要算法及系統,包括如下步驟:使用在Image數據集上預訓練的InceptionResNetV2網絡提取每幀的深度空間特征;使用雙向ConvLSTM對每一幀的特征圖進行前向和后向的時空建模,同時捕獲特征圖內的空間結構信息和視頻時序上的長短期依賴關系;將視頻幀的時空語義信息通過全連接層和非線性映射層回歸生成幀級重要性分數;通過背包算法選擇關鍵鏡頭并生成動態摘要。
但是上述視頻摘要的方法存在一定的缺陷,基于人工標準的技術雖然能夠匹配視頻的各種屬性,但是忽略了視頻幀之間固有的時間依賴關系,未能將原視頻完整的故事線信息傳達給視頻摘要,從而造成視頻摘要中信息的割裂感?;谏疃葘W習的技術在此基礎上進行了改進,利用RNN引入了視頻幀之間的時間依賴關系,但是這種技術的記憶能力是有限的,不能保留較遠距離的記憶,其次該技術不能充分利用GPU的并行計算能力,無法充分利用計算資源,并且在訓練過程中可能會出現梯度爆炸或消失的問題。
發明內容
根據上述提出的技術問題,提供一種基于時序卷積網絡的視頻摘要方法。本發明通過應用時序卷積網絡,對視頻圖像進行處理,建立視頻幀之間的長期依賴關系,從而選取出可以傳達原始視頻含義的部分組成視頻摘要;通過視頻摘要技術生成原始視頻的簡短版本,加快用戶尋找需要的視頻的效率。
本發明采用的技術手段如下:
一種基于時序卷積網絡的視頻摘要方法,包括:
獲取視頻數據集;
基于獲取的視頻數據集,提取視頻特征;
將提取的視頻特征輸入深度摘要網絡,捕獲視頻幀的重要性;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310067028.6/2.html,轉載請聲明來源鉆瓜專利網。





