[發明專利]融合局部目標特征與全局特征的視頻摘要生成方法有效
| 申請號: | 202110444672.1 | 申請日: | 2021-04-24 |
| 公開(公告)號: | CN113139468B | 公開(公告)日: | 2023-04-11 |
| 發明(設計)人: | 杜友田;張光勛 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/80;G06V10/82;G06F16/738;G06N3/045;G06N3/0442;G06N3/0464;G06N3/047;G06N3/08 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 段俊濤 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 局部 目標 特征 全局 視頻 摘要 生成 方法 | ||
1.一種融合局部目標特征與全局特征的視頻摘要生成方法,其特征在于,包括:
步驟1,提取視頻的局部目標特征,所述局部目標特征中包含目標的視覺特征、目標的運動軌跡特征以及目標的類別標簽特征;
步驟2,利用注意力機制構建局部目標特征融合網絡,輸入所述局部目標特征得到融合局部目標特征;
步驟3,利用編碼-解碼框架中的編碼器從視頻中抽取得到視頻的全局特征,并將所述融合局部特征引入編碼-解碼框架,融合視頻的全局特征信息與局部目標特征信息,獲得表現力更加豐富的表征向量,再根據該表征向量解碼出相應的摘要語句;
所述步驟1中,對原始視頻數據,根據視頻場景進行分割與采樣,獲得圖片集合;在相同場景下,使用經過預訓練的目標檢測網絡對圖片集合中的每張圖片進行目標定位與特征提取;根據目標特征的相似度,利用聚類算法聚合相同的目標,進而構建目標的時序關系;消除視頻中出現時間短于設定值的目標和噪聲,從而獲得視頻中主要目標的特征;通過使用最大池化網絡和自編碼解碼器,對齊目標特征,獲得視頻中定長的局部目標特征;
通過每隔3幀提取1幀的方法,對視頻進行下采樣,得到圖片集合P,所述預訓練的目標檢測網絡為經過數據集MS-COCO預訓練過的目標檢測模型Faster?R-CNN網絡,對每一個概率大于50%的目標抽取其輸出特征foutput和時序關聯構造特征fconnect,定義目標相似度系數KSimilarity衡量目標間的相似程度,并利用K-means的思想為相同目標構造時序關系;
所述步驟2中,使用乘性注意力機制構建兩層的局部目標特征融合網絡,得到不同目標不同類別的特征與控制注意力模塊的LSTM網絡之間的關系,局部目標特征融合網絡的構建方法如下:
第一層注意力機制:
針對相同特征間不同目標的關注度差異,生成一個注意力權重系數α,權重系數α由該目標所包含的特征與上一時刻控制注意力模塊的LSTM網絡的隱藏層狀態特征計算得出,計算公式如下:
aim=fm·W·hi-1atten
αim=softmax(waTaim)
式中,aim為產生第i個單詞時第m個目標的特征的注意力權重系數,fm為視頻中第m個目標的特征,fm=fvisualm或fpositionm或flabelm,fvisualm是第m個目標的視覺特征,fpositionm第m個目標的位置變化特征,flabelm第m個目標的類別標簽特征,W為全連接層變換矩陣,其參數通過訓練學習獲得,hi-1atten為產生第i-1個單詞時的控制注意力模塊的LSTM網絡的隱藏層的狀態特征,αim為經過softmax歸一化后的注意力權重系數,wa為注意力權重的維度變化矩陣,cip為產生第i個單詞時將N個目標通過注意力機制進行特征融合的結果,N為輸入的目標的個數;
通過上式計算得到多目標單位在視覺特征上的融合特征civisual,在位置變化軌跡上的融合特征ciposition和在目標類別上的融合特征cilabel;
第二層注意力機制,計算公式如下:
式中,ci為產生第i個單詞時,融合了視覺特征、位置變化特征和類別特征的融合局部目標特征,為不同類別融合特征的權重系數,或或為視覺特征注意力權重系數,為位置特征注意力權重系數,為類別標簽特征注意力權重系數,為參數由訓練學習獲得的全連接層變換矩陣,wa為注意力權重的維度變化矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110444672.1/1.html,轉載請聲明來源鉆瓜專利網。





