[發明專利]基于視覺和語義特征協作與強化學習的視頻摘要方法在審
| 申請號: | 202110873724.7 | 申請日: | 2021-07-30 |
| 公開(公告)號: | CN113569767A | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | 鐘睿;李陳鵬;肖地洋;王蕊;姚文進 | 申請(專利權)人: | 華中師范大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/46;G06N3/04;G06N3/08;G06F16/738 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 嚴彥 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 視覺 語義 特征 協作 強化 學習 視頻 摘要 方法 | ||
本發明提供一種基于視覺和語義特征協作與強化學習的視頻摘要方法,包括將視頻文件分解成幀序列,按照幀的時間順序依次使用深度神經網絡提取語義特征和視覺顯著性特征;經過Bi?LSTM模型處理預測出各視頻幀被選擇為關鍵幀的初始概率;根據視覺顯著性特征提取出空間注意力得分,歸一化后利用調整因子對Bi?LSTM模型產生的初始概率進行調制得到調制概率;根據調制概率,確定語義特征與視覺顯著性特征均重要的關鍵幀,實現VSFB模型;將原始視頻分為多個獨立片段clip,計算選擇的關鍵幀與其他幀之間索引調整的差異性獎勵和代表性獎勵,依據強化學習獎勵機制,動態調整初始概率,加強VSFB模型在視頻摘要中的學習,最后得到理想模型,實現從任意待處理視頻中的摘要提取。
技術領域
本發明屬于視頻摘要技術領域,尤其是針對用戶的“隨手拍”視頻,基于視覺和語義特征協作調制與強化學習的無監督視頻摘要方法。
背景技術
視頻摘要的目的是通過一段簡短的剪輯視頻來表示原始的視頻內容,該技術能夠方便視頻的預覽、存儲、檢索和管理。自從YouTube、Instagram等自媒體平臺快速發展以來,普通用戶創建并上傳了大量的視頻數據。然而,傳統的基于人工瀏覽視頻,挑選出關鍵片段的模式需要耗費大量的人力和時間、效率低下,無法高效及時地處理海量視頻。自動視頻摘要技術能夠自動分析原始視頻中的內容,并提煉出關鍵的片段組成時長更短的視頻。便于自媒體平臺快速的瀏覽,存儲,檢索,傳播視頻信息,對信息的流通具有重要的意義。
現有的視頻摘要方法(文獻1,文獻2)主要解決特定類別的視頻,如監控視頻,關注的是在背景不變,或者有額外輔助信息的條件下度量視頻幀的關鍵程度。然而,“隨手拍”視頻,場景在短時間內頻繁變化,大大增加了視頻內容的語義信息復雜度,同時干擾信息也更多。因此,傳統的方法并不能很好的解決“隨手拍”視頻的摘要問題。
[1].H.-C.Shih:A novel attention-based key-frame determinationmethod.IEEE Transactions on Broadcasting,vol.59,no.3,pp.556–562(2013)
[2].M.Paul and M.M.Salehin:Spatial and motion saliency predictionmethod using eye tracker data for video summarization.IEEE Transactions onCircuits and Systems for Video Technology,vol.29,no.6,pp.1856–1867(2018)
發明內容
針對現有技術存在的不足,本發明提供了一種基于視覺和語義特征協作調制與強化學習的雙向LSTM模型的無監督視頻摘要方法。該方法的主要特點是提出將語義信息和視覺信息融合,并以空域關注度模型(SAM)調制雙向長短期記憶模型(Bi-LSTM)的形式來細化當前圖像被選為關鍵幀的概率,稱為VSFB模型。最后,根據摘要結果計算選中幀和其他幀之間的差異性和代表性,依據強化學習獎勵機制,利用一個索引調整的差異性和代表性獎勵來調整初始概率,加強VSFB模型在視頻摘要中的學習。
本發明提供一種基于視覺和語義特征協作與強化學習的視頻摘要方法,包括以下步驟,
步驟1,將視頻文件分解成幀序列,按照幀的時間順序依次使用深度神經網絡提取語義特征和視覺顯著性特征;
步驟2,語義特征經過Bi-LSTM模型處理預測出各視頻幀被選擇為關鍵幀的初始概率;根據視覺顯著性特征提取出空間注意力得分,歸一化后作為Bi-LSTM模型初始概率的調整因子,利用調整因子對Bi-LSTM模型產生的初始概率進行調制得到調制概率;
步驟3,根據調制概率,確定語義特征與視覺顯著性特征均重要的關鍵幀,實現VSFB模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中師范大學,未經華中師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110873724.7/2.html,轉載請聲明來源鉆瓜專利網。





