[發明專利]基于時空傳播層次編解碼器的視頻預測方法有效
| 申請號: | 202110534056.5 | 申請日: | 2021-05-17 |
| 公開(公告)號: | CN113422952B | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 李平;張陳翰;王然;徐向華 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | H04N19/107 | 分類號: | H04N19/107;H04N19/30;H04N19/61;G06K9/62;G06V10/40;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱亞冠 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 時空 傳播 層次 編解碼器 視頻 預測 方法 | ||
1.基于時空傳播層次編解碼器的視頻預測方法,其特征在于,該方法首先原始視頻數據集合,然后進行以下操作:
步驟(1)對每個視頻進行采樣,獲得視頻幀序列,并將其輸入至低層視覺記憶編碼器中,輸出對應的低層視覺編碼特征和低層記憶狀態特征;具體是:
(1-1)對原始視頻數據集合每隔d幀進行采樣,得到數量為N的視頻幀序列d=5~10;其中,表示實數域,Xk表示第k個視頻幀,H表示視頻幀高度,W表示視頻幀寬度,3表示RGB通道數量;
(1-2)構建由一個二維卷積層和一個卷積長短期記憶模塊組成的低層視覺記憶編碼器,所述的卷積長短期記憶模塊是將長短期記憶單元LSTM的全連接操作替換成卷積操作后的模塊;
(1-3)將視頻幀序列的前M幀輸入二維卷積層,M<N-2,1≤t≤M,獲得低層初始特征表示H1表示低層初始特征高度,W1表示低層初始特征寬度,C1表示低層初始通道維度;
(1-4)將低層初始特征表示ft輸入卷積長短期記憶模塊,輸出第t幀的低層視覺編碼特征和低層記憶狀態特征其中,H2=H1<H,表示對應特征高度,W2=W1<W,表示對應特征寬度,C2表示對應通道維度;
步驟(2)將低層視覺編碼特征輸入至時空傳播模塊,輸出時空編碼特征;具體是:
(2-1)構建由三個結構相同但參數不共享的二維卷積層,以及逐元素相乘操作和逐元素相加操作組成的時空傳播模塊;
(2-2)時空傳播模塊的輸入為第t幀的低層視覺編碼特征ht和第t-1幀的時空編碼特征拼接得到的拼接時空編碼特征[·,·]表示拼接操作,其中z0由隨機初始化得到;
(2-3)對拼接時序編碼特征進行三次卷積操作,得到時空編碼特征即其中,符號表示逐元素相乘,表示逐元素相加,σ(·)表示sigmoid激活函數,Convi(·),i=1,2,3表示結構相同但參數不共享的卷積操作;輸出時空編碼特征
步驟(3)構建高層語義編碼器,輸入為時空編碼特征,輸出高層語義編碼特征;
步驟(4)構建層次特征解碼器,輸入為低層視覺編碼特征、低層記憶狀態特征和高層語義編碼特征,輸出預測視頻幀;
步驟(5)建立由低層視覺編碼器、時空傳播模塊、高層語義編碼器、層次特征解碼器組成的視頻預測模型,先迭代訓練該模型直至收斂,然后將新視頻采樣后的視頻幀序列輸入至該模型,得到最終的預測幀序列。
2.如權利要求1所述的基于時空傳播層次編解碼器的視頻預測方法,其特征在于,步驟(3)具體是:
(3-1)構建由一個卷積層和一個卷積長短期記憶模塊組成的高層語義編碼器;
(3-2)將時空編碼特征zt輸入卷積層,得到高層初始特征表示H4表示高層初始特征高度,W4表示高層初始特征寬度,其中C4表示高層初始通道維度;
(3-3)將高層初始特征表示f′t輸入卷積長短期記憶模塊,得到高層語義編碼特征并輸出。
3.如權利要求2所述的基于時空傳播層次編解碼器的視頻預測方法,其特征在于,步驟(4)具體是:
(4-1)構建由一個卷積長短期記憶模塊和兩個逆卷積層組成的層次特征解碼器,逆卷積層對輸入特征圖用0填充,再對其進行卷積操作,將因卷積操作縮小的特征圖還原至原視頻幀尺寸大小;
(4-2)將高層語義編碼特征h′t輸入第一個逆卷積層,得到擴張特征表示
(4-3)將擴張特征表示qt,以及(1-4)中的低層視覺編碼特征ht和低層記憶狀態特征ct(4-2)輸入卷積長短期記憶模塊進行特征混合,輸出層次解碼特征
(4-4)將層次解碼特征h″t輸入第二個逆卷積層,得到t+1時刻預測視頻幀并輸出。
4.如權利要求3所述的基于時空傳播層次編解碼器的視頻預測方法,其特征在于,步驟(5)具體是:
(5-1)構建由低層視覺編碼器、時空傳播模塊、高層語義編碼器、層次特征解碼器組成的視頻預測模型;
(5-2)將視頻幀序列的前M+t′幀輸入視頻預測模型,t′=0,…,(N-M-2),得到預測視頻幀q′M+t′+1;將預測視頻幀q′M+t′+1與首幀X1融合,獲得初始輸入張量其中,融合操作表示為Conv(·)表示卷積操作;再次輸入視頻預測模型,得到M+t′+2時刻的預測視頻幀q′M+t′+2;
(5-3)將真實視頻幀和預測視頻幀之間的損失函數定義為其中||·||1表示L1范數,t″表示視頻幀時刻,其取值范圍為2≤t″≤N;
(5-4)利用隨機梯度下降法優化上述視頻預測模型,迭代訓練該模型直至收斂,獲得優化的預測模型;
(5-5)對于新的視頻通過采樣得到M個視頻幀,并輸入上述優化的預測模型,依照(5-2)依次輸出指定數量的預測視頻幀作為視頻預測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110534056.5/1.html,轉載請聲明來源鉆瓜專利網。





