[發明專利]一種基于在線訓練的超分辨率直播系統在審
| 申請號: | 202210450602.1 | 申請日: | 2022-04-26 |
| 公開(公告)號: | CN115052187A | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 徐躍東;劉旭東;戴連貴;邢萬勇;張云霞;徐廣寧 | 申請(專利權)人: | 復旦大學;廣東利通科技投資有限公司 |
| 主分類號: | H04N21/44 | 分類號: | H04N21/44;H04N21/462;H04N21/437;H04N21/234;H04N21/2187;H04N21/643;G06T3/40;G06N3/04;G06N3/08 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 在線 訓練 分辨率 直播 系統 | ||
1.一種基于在線訓練的超分辨率直播系統,其特征在于,包括推流端和服務器端兩個部分;其中:
(1)服務器端
包括空域超分F-EDSR和TCSR兩個網絡,并進行級聯;前者用于對視頻實時處理,后者用于對F-EDSR的輸出進行幀挑選處理;
(1.1)F-EDSR
空域超分F-EDSR作為一級網絡,是基于圖像超分網絡EDSR;網絡頭部使用一個二維卷積層,具有更大的5*5卷積核,以及更少的通道;網絡主體由深度殘差模塊構成,并以二維卷積層結束;每個殘差模塊由兩個卷積層和一個激活層構成;殘差模塊去掉批量歸一化層使得網絡主體參數更少,感受動態更大;網絡尾部是上采樣模塊和卷積模塊,使得圖像能以設定尺寸輸出;
(1.2)TCSR
TCSR網絡作為二級網絡,以多個連續的幀為作為輸入,中間幀作為融合輸出的目標;包括一個OFRnet運算模塊、仿射變換、融合模塊、重構模塊;
多個連續幀表示為It-k,…It-1,It,It+1,…,It+k,中間幀為It,其中k表示中間幀和相鄰幀的最大間隔數;使用的視頻幀輸入后,每對相鄰幀It+i和目標幀It經過OFRnet的運算,都能得到It+i關于It的光流圖,記為Ot+i;利用Ot+i對It+i進行仿射變換得到經過運動補償的幀It+i,t,該幀是與It高度相似的對齊幀;此時多個對齊幀{It+i,t}和目標幀It進入一個融合模塊,該融合模塊運用注意力機制將多幀融合,輸出多通道特征圖最后經由一個重構模塊加上圖像殘差,輸出超分辨率目標幀
(2)推流端
推流端主要包括訓練和監測兩個模塊;訓練模塊將當前的實時最佳模型傳送給監測模塊,監測模塊負責記錄當前模型隨視頻流變化的PSNR;一旦通過PSNR監測到場景轉變,監測模塊向訓練模塊發出訓練請求;如果訓練模塊處于停止狀態,則開始模型訓練;
(2.1)監測模塊
監測算法選擇使用局部加權回歸算法,該算法利用某時刻的鄰近值進行平滑處理;由于與時刻xi距離不同的點有不同的權重,算法公式如下所示:
其中,使用Epanechnikov二次kernel:
式中,λ是kernel的參數,稱為窗口寬度;局部加權中只考慮附近k個值的影響,也就是:
λ=|xi-x[k]|,
其中,x[k]是距離xi為k的時刻點;
(2.2)訓練模塊
訓練模塊根據監測模塊的結果進行訓練;訓練過程中,設定一個提升PSNR閾值THs以及一個預測提升PSNR閾值THp;前者依據經驗作為固定參數,后者通過冷啟動的訓練數據實時預測最大提升值;訓練模塊中,通過一淺層神經網絡預測數據結果;網絡的輸入層和輸出層的數據個數都為1,其中間為隱藏層,共有3層,每個隱藏層有20個神經元,每層使用sigmoid作為激活函數;這樣的網絡結構能夠較好地擬合在閉區間上連續的大部分函數;同時訓練損失函數為MSE,使用L2正則化防止數據過擬合;
最后選擇提升閾值為:
其中,α為小于1的比例系數;訓練模型PSNR達到該閾值TH后即停止訓練,以節省計算資源。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學;廣東利通科技投資有限公司,未經復旦大學;廣東利通科技投資有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210450602.1/1.html,轉載請聲明來源鉆瓜專利網。





