[發明專利]一種注意力輔助的無監督視頻摘要系統有效
| 申請號: | 202011550924.0 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN112560760B | 公開(公告)日: | 2023-03-10 |
| 發明(設計)人: | 馬汝輝;劉俊男;宋濤;華揚;管海兵 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/82;G06V10/774;G06V10/74;G06F16/738 |
| 代理公司: | 上海旭誠知識產權代理有限公司 31220 | 代理人: | 鄭立 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 注意力 輔助 監督 視頻 摘要 系統 | ||
1.一種注意力輔助的無監督視頻摘要系統,其特征在于,包括特征提取模塊、自注意力模塊、和生成對抗網絡模塊,被配置為:
所述特征提取模塊,接受視頻輸入,并計算視頻幀特征;
所述自注意力模塊,計算視頻的相似性矩陣,獲得加權視頻幀特征;
所述生成對抗網絡模塊,包括生成器和鑒別器,所述生成器使用所述自注意力模塊輸出的加權視頻幀特征,并使用神經網絡計算視頻幀表征,預測視頻幀的重要性分數并輸出,生成新的幀特征;所述鑒別器將所述自注意力模塊輸出的加權視頻幀特征與所述生成器生成的幀特征作為輸入,經過神經網絡計算視頻幀特征并區分原始視頻幀特征和所述生成器生成的加權幀特征,計算對抗損失和多樣性損失;
系統根據生成器預測的分數,挑選關鍵幀,并生成視頻摘要;
所述注意力模塊被配置為按以下流程運行,包括:
步驟A1:輸入視頻幀特征;
步驟A2:計算整段視頻的注意力矩陣;
步驟A3:計算視頻幀特征的所述相似性矩陣;
步驟A4:計算加權視頻幀特征;
所述步驟A2中,通過計算任意兩幀特征的加權點積,之后對點積結果進行線性縮放并使用Softmax函數,其結果作為整段視頻的所述注意力矩陣;
所述步驟A3中,使用所述注意力矩陣對每個視頻幀按行求累積計算出視頻幀特征的所述相似性矩陣;
所述步驟A4中,將所述相似性矩陣與原始視頻幀特征相乘得到所述加權視頻幀特征。
2.如權利要求1所述的系統,其特征在于,所述步驟A1中,采用GoogLeNet作為特征提取網絡,提取的原始視頻的視頻幀的特征為1024維向量,作為輸入視頻幀特征。
3.如權利要求1所述的系統,其特征在于,其被配置為按以下流程運行,包括:
步驟1、將視頻輸入特征提取模塊;
步驟2、訓練所述自注意力模塊和所述生成對抗網絡模塊;
步驟3、對于測試視頻,將其進行所述步驟1的特征提取,并輸出到所述生成器中得到重要性分數;
步驟4、根據所述生成器預測的分數,挑選關鍵幀,最終獲得并生成視頻摘要。
4.如權利要求3所述的系統,其特征在于,所述步驟1中,所述特征提取模塊采用GoogLeNet作為特征提取網絡,提取的視頻幀的特征為1024維向量。
5.如權利要求3所述的系統,其特征在于,所述步驟2包括:
步驟2.1、所述自注意力模塊計算視頻中任意兩幀的所述相似性矩陣和多樣性矩陣,對輸入視頻幀進行相乘并加權,輸入到所述生成器中,所述生成器從而生成新的加權特征和對應的重要性分數;
步驟2.2、所述鑒別器接收上一步驟中所述自注意力模塊生成的加權幀特征和所述生成器生成的加權特征作為輸入,計算多樣性損失和對抗損失,更新所述鑒別器和所述生成器的參數;
步驟2.3、重復所述步驟2.1至所述步驟2.3直至所述生成器和所述鑒別器參數收斂。
6.如權利要求5所述的系統,其特征在于,所述步驟2.2中,使用反向傳播算法更新所述鑒別器和所述生成器的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011550924.0/1.html,轉載請聲明來源鉆瓜專利網。





