[發明專利]基于轉換器的視頻摘要方法有效
| 申請號: | 202010329511.3 | 申請日: | 2020-04-24 |
| 公開(公告)號: | CN111526434B | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 梁國強;張艷寧;呂艷兵;李書成;吉時雨 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | H04N21/8549 | 分類號: | H04N21/8549;G06N3/04;G06N3/08 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 常威威 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 轉換器 視頻 摘要 方法 | ||
1.一種基于轉換器的視頻摘要方法,其步驟如下:
步驟1:對選定數據集中的視頻進行下采樣,然后使用預先訓練好的神經網絡提取視頻每一幀的特征向量hf∈Rd,f為幀序號,f=1,2,...,F,F是下采樣后視頻的總長度,d表示特征向量的長度;一個視頻所有幀的特征向量和對應的重要性分數構成訓練集中的一個樣本;所述的選定數據集包括TvSum和SumMe;
步驟2:使用下式生成視頻幀的位置向量:
其中,PEf(i)表示視頻第f幀的位置向量的第i個元素值,i=1,2,…,d;
然后,將視頻每一幀的位置向量逐元素與其特征向量相加,對每一幀得到一個添加位置向量后的新向量xf;
步驟3:構建視頻摘要轉換器神經網絡模型,包括編碼器和解碼器兩個部分,其中,編碼器由兩個相同結構的編碼器單元順序連接而成,每個編碼器單元依次包括多頭自注意力機制模塊、殘差連接及歸一化模塊1、兩層的前饋網絡和殘差連接及歸一化模塊2,將添加了位置向量的視頻幀序列輸入到第一個編碼器單元中,第二個編碼器單元輸出得到一個維度與輸入相同的帶有序列信息的中間變量Y;
解碼器由兩個相同結構的解碼器單元順序連接而成,每個解碼器單元依次包括帶有掩膜的多頭自注意力機制模塊、殘差連接及歸一化模塊1、多頭自注意力機制模塊、殘差連接及歸一化模塊2、兩層的前饋網絡和殘差連接及歸一化模塊3;解碼器有兩個輸入,當預測第k幀的重要性得分時,已預測得到的前k-1個視頻幀的重要性得分與其特征向量的乘積為第一個解碼器單元中帶有掩膜的多頭自注意力機制模塊的輸入,編碼器輸出的中間變量輸入到每個解碼器單元的多頭自注意力機制模塊中;在第二個解碼器單元后連接線性層和sigmoid函數,輸出每一幀的重要性分值預測結果;
對上述神經網絡模型的輸入進行初始化,具體包括:編碼器單元中多頭自注意力機制模塊第n個頭的輸入初始化為:其中,n=1,2,3,4,在第一個編碼器單元中Q0=K0=V0=X,X為步驟2得到的添加了位置向量的視頻幀特征,在第二個編碼器單元中Q0、K0、V0為第一個編碼器單元的輸出,為隨機生成的并且需在訓練過程中學習的大小為d×d的矩陣;解碼器單元中帶有掩膜的多頭自注意力機制模塊的第n個頭的輸入Qn、Kn和Vn的初始化方法與編碼器中多頭自注意力機制模塊相同,不同之處為在第一個解碼器單元中其中,hf為步驟1得到的第f幀的特征向量,sf為預測得到的第f幀對應的重要性得分,第二個解碼器單元中Q0、K0、V0為第一個解碼器單元的輸出;解碼器單元中多頭自注意力機制模塊的第n個頭的輸入Qn、Kn和Vn的初始化方法與編碼器中多頭自注意力機制模塊相同,不同之處為K0=V0=Y,Q0=Z,其中,Y為編碼器輸出的中間變量,Z為所在解碼器單元中殘差連接及歸一化模塊1輸出的變量;
步驟4:使用步驟1得到的訓練數據集對步驟3構建的視頻摘要轉換器神經網絡模型進行訓練,設定網絡的損失函數為均方損失函數其中,L表示網絡損失,sf和s′f分別為模型預測的視頻第f幀重要性分數和數據集中人工標注的重要性分數;
步驟5:對待處理的視頻數據集進行預處理,包括片段提取、降采樣、特征提取和位置向量添加,得到每一幀的特征表示;然后,利用步驟4訓練好的神經網絡模型提取得到每一幀視頻的重要性得分;利用KTS算法將視頻劃分為若干個場景鏡頭,并使用背包算法,依據視頻幀的重要性得分選擇出重要的視頻鏡頭作為視頻摘要,所選取的視頻摘要長度不超過原視頻長度的15%。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010329511.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高精度數控加工用雙桿式換位裝置
- 下一篇:一種用于化工原料干燥的機械設備





