[發明專利]一種基于解構壓縮和融合的視頻編碼方法有效
| 申請號: | 202011076173.3 | 申請日: | 2020-10-10 |
| 公開(公告)號: | CN112218072B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 陸明;馬展 | 申請(專利權)人: | 南京大學 |
| 主分類號: | H04N19/103 | 分類號: | H04N19/103;H04N19/13;H04N19/176;H04N19/59 |
| 代理公司: | 江蘇法德東恒律師事務所 32305 | 代理人: | 李媛媛 |
| 地址: | 210046 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 解構 壓縮 融合 視頻 編碼 方法 | ||
1.一種基于解構壓縮和融合的視頻編碼方法,其特征在于,該方法的步驟為:將視頻解構為空域紋理幀和時域運動幀,對空域紋理幀使用編碼器幀內編碼模式編碼,對時域運動幀首先經雙立方插值下采樣,后使用編碼器幀間編碼模式編碼,在解碼端使用由運動補償網絡和紋理遷移網絡組成的超分辨率網絡恢復時域運動幀原有分辨率下的圖像紋理和運動細節;所述方法的具體步驟包括:
步驟1,生成訓練使用的圖像塊組合:將采集的每個訓練視頻幀解構為高分辨率的空域紋理幀和經下采樣的低分辨率時域運動幀,使用編碼器依次編碼并解碼,獲取帶壓縮噪聲的視頻序列幀;將前后各兩幀和當前幀共五幀的低分辨率時域運動幀以及最鄰近高分辨率空域紋理幀組成輸入圖像組合,并將對應當前幀高分辨率未編碼的原始幀作為真實值標簽,一起作為監督訓練的數據集;
步驟2,構建解碼端超分辨率網絡,包括運動補償網絡和非局部紋理遷移網絡,用于對解碼后的低分辨率時域運動幀進行超分辨率處理;具體步驟包括:
步驟21,構建運動補償網絡的運動對齊模塊:使用多尺度卷積網絡層分別提取當前幀和鄰近幀的多尺度特征,對各個尺度的兩幀特征利用卷積提取卷積核偏移量,將偏移量作用到可變形卷積的卷積核上,從低尺度到高尺度依次將鄰近幀特征對齊到當前幀特征,得到相鄰幀對當前幀的運動表示;
步驟22,構建運動補償網絡的特征融合模塊:依次使用時間注意力機制,通道注意力機制和空間注意力機制對對齊的相鄰幀和當前幀的特征進行融合,得到補償融合后的低分辨率時域運動幀的運動特征表達;
步驟23,構建運動補償網絡:使用條件卷積替換網絡中運動對齊模塊和特征融合模塊中所有的普通卷積,將幀質量情況即量化參數作為輸入,經獨熱編碼變換后與全連接層做卷積計算生成縮放因子和偏置因子作用在原始普通卷積上,調整卷積權重以自動適配不同壓縮情況,幫助網絡更好收斂;
步驟24,構建非局部紋理遷移網絡,將低分辨率時域運動幀上采樣,高分辨率空域紋理幀下采樣再上采樣,高分辨率空域紋理幀本身輸入經預訓練過的語義分類網絡,提取多尺度語義特征,在第三個尺度下計算低分辨率時域運動幀上采樣和高分辨率空域紋理幀下采樣再上采樣對應的特征的非局部相關性,分別以3x3作為滑動窗口提取特征塊,使用余弦相似性度量函數逐塊計算L2范數標準化后的塊間相似性,并在空域紋理幀下采樣再上采樣的特征塊中找到對應每一時域運動幀上采樣特征塊的最相似塊,得到對應的相似性系數,以及最相似塊對應的索引,依據索引從空域紋理幀本身找到對應的特征塊;插值得到更大兩個分辨率特征間的相似性和索引位置;
步驟25,將所述特征融合模塊得到的補償融合后的時域運動幀的運動特征表達和所述非局部紋理遷移網絡新得到的特征以及對應的相似性融合得到最終的輸出,即高分辨率高保真的時域運動幀;
步驟3,構建損失函數,使用優化器分別單獨訓練不同壓縮率下的超分辨率網絡;
步驟4,使用優化后的超分辨率網絡對解構編碼的視頻中低分辨率時域運動幀進行超分辨率重建,恢復原有分辨率下的圖像紋理和運動細節,提升整體視頻編碼效率。
2.根據權利要求1所述的一種基于解構壓縮和融合的視頻編碼方法,其特征在于,步驟1中,對采集的訓練視頻的解構和編碼的具體步驟包括:
步驟11,對每個采集到的訓練視頻解構邏輯對應編碼模式選擇,采用幀內編碼模式的幀被認定為空域紋理幀,保持分辨率不變,編碼后解碼并使用雙立方插值下采樣為原有分辨率的一半作為后續幀的參考幀;
步驟12,采用幀間編碼模式的幀被認定為時域運動幀,首先使用雙立方插值降采樣到原有分辨率的一半,并在低分辨率下進行編碼,參考關系保持編碼器原始編碼設置不變;
步驟13,分別采用不同的量化參數控制壓縮率得到不同壓縮率的訓練視頻,針對不同壓縮率的訓練視頻分別制作對應的訓練數據集;
步驟14,在獲得的五幀低分辨率時域運動幀上隨機裁剪對應位置64x64的圖像塊,高分辨率空域紋理幀上對應位置128x128的圖像塊,以及對應幀高分辨率真實值標簽上128x128的圖像塊,對于YUV格式的視頻只采用Y通道,并隨機垂直、水平翻轉,作為網絡訓練輸入。
3.根據權利要求1所述的一種基于解構壓縮和融合的視頻編碼方法,其特征在于,步驟4中,恢復原有分辨率下的圖像紋理和運動細節的具體步驟包括:
步驟41,將需要編碼的視頻解構為空域紋理幀和時域運動幀,結構邏輯對應編碼模式;采用幀內編碼模式的幀被認定為空域紋理幀,保持分辨率不變,編碼后解碼并使用雙立方插值下采樣為原有分辨率的一半作為后續幀的參考幀;采用幀間編碼模式的幀被認定為時域運動幀,首先使用雙立方插值降采樣到原有分辨率的一半,并在低分辨率下進行編碼,參考關系保持編碼器原始編碼設置不變;
步驟42,根據編碼選擇的量化參數數值,選擇對應訓練的超分辨率網絡,對解碼后時域運動幀進行恢復;將需要恢復的時域運動幀作為中間幀,選擇其前后各兩幀時域運動幀和當前幀一起輸入運動補償網絡得到補償后的當前幀的運動表示;將當前時域運動幀經雙立方插值上采樣,最鄰近高分辨率空域紋理幀本身以及其經雙立方插值下采樣再上采樣一起輸入非局部紋理遷移網絡,得到最終恢復的高質量高分辨率的時域運動幀。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011076173.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于分布式計算的激光雷達點云數據投影方法
- 下一篇:一種物流運輸車





