[發明專利]基于深度學習的多幀自適應融合的視頻超分辨方法在審
| 申請號: | 201910967482.0 | 申請日: | 2019-10-12 |
| 公開(公告)號: | CN110852944A | 公開(公告)日: | 2020-02-28 |
| 發明(設計)人: | 曾明;馬金玉;吳雨璇;李祺;王湘暉 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06T3/40 | 分類號: | G06T3/40;G06T7/246;G06T7/33 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 程毓英 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 自適應 融合 視頻 分辨 方法 | ||
1.一種基于深度學習的多幀自適應融合的視頻超分辨方法,包括下列步驟:
第一步,構建訓練本發明的網絡所需的數據集
將已有視頻數據集中的視頻逐幀讀取成圖像并保存,記作高分辨率圖像集YHR,然后將高分辨率圖像集YHR中的每一張圖像做下采樣得到對應的低分辨率圖像集YLR。
第二步,通過深度學習框架TensorFlow搭建多幀自適應融合的視頻超分辨網絡
多幀自適應融合的視頻超分辨網絡被劃分為兩個部分:多幀自適應配準網絡和超分辨網絡,其中多幀自適應配準網絡能夠將需要超分辨的關鍵幀的相鄰幀進行扭曲,使其和關鍵幀的內容趨于相同,以提供給算法更多的細節信息,而超分辨網絡則將多幀自適應配準網絡的輸出超分辨為高分辨率幀圖像,包括步驟如下:
(1)多幀自適應配準網絡根據視頻幀長度的不同被劃分為三個子部分:分別為關鍵幀直接輸出部分,三幀運動配準部分和五幀運動配準部分;其中三幀運動配準部分和五幀運動配準部分各由八層卷積神經網絡構成,記作FNet,每個卷積層之后都選取ReLU函數作為激活函數,前三層卷積神經網絡通過兩倍最大池化實現圖像的下采樣功能,之后的三層卷積神經網絡通過雙三次插值實現上采樣功能,設所需超分辨的關鍵幀為第n幀,記為In,下面為多幀自適應配準網絡的數學模型:
Fout=[α·FNet(In-2,In-1,In,In+1,In+2)+β·FNet(In-1,In,In+1)+γ·FNet(In)]
其中Fout代表多幀自適應配準網絡的輸出,α,β,γ分別代表五幀運動配準部分,三幀運動配準部分和關鍵幀直接輸出部分所對應的權重,In-2,In-1,In+1,In+2則分別代表關鍵幀的前兩幀圖像和后兩幀圖像;
(2)超分辨網絡FSR共包含多個卷積層,每個卷積層后都接有一個ReLU函數作為激活函數,網絡的最后通過連接兩個反卷積層實現圖像的上采樣,將網絡的輸入和輸出直接進行連接防止在訓練過程中發生梯度彌散問題,Iout為超分辨網絡FSR的輸出,超分辨網絡的數學模型如下:
Yout=FSR(Fout)
第三步,用第一步獲得的高分辨率圖像集YHR和低分辨率圖像集YLR對所設計網絡進行訓練,網絡的損失定義為L2損失:
Loss=(Yout-YHR)2
其中Yout超分辨網絡的輸出,訓練完成后保存網絡的結構和參數;
第四步,設所需超分辨的低分辨率視頻為V,將低分辨率視頻V作為第三步保存的網絡的輸入,對應輸出則為所需的高分辨率視頻,至此完成視頻超分辨過程。
2.根據權利要求1所述的方法,其特征在于,第三步中,網絡優化器設置為Adam;一個訓練批次設置為128張圖像;網絡的初始學習率設置為0.01;當損失連續100個epoch沒有明顯的下降時將其降低10倍,最終的學習率設置為10-5;訓練epoch設置為5000。
3.一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現權利要求1-2任意一項所述的方法步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910967482.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:拖拉機雙托架減振前驅動橋
- 下一篇:一種通訊設備連接組件





