[發(fā)明專利]一種HEVC幀內(nèi)編碼中基于深度學(xué)習(xí)的率失真優(yōu)化快速?zèng)Q策系統(tǒng)及其方法有效
| 申請?zhí)枺?/td> | 202010157663.X | 申請日: | 2020-03-09 |
| 公開(公告)號: | CN111355956B | 公開(公告)日: | 2023-05-09 |
| 發(fā)明(設(shè)計(jì))人: | 蔡曉剛 | 申請(專利權(quán))人: | 蔡曉剛 |
| 主分類號: | H04N19/149 | 分類號: | H04N19/149;H04N19/159;H04N19/14 |
| 代理公司: | 南京泰普專利代理事務(wù)所(普通合伙) 32360 | 代理人: | 竇賢宇 |
| 地址: | 210046 江蘇省南京市棲霞區(qū)*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 hevc 編碼 基于 深度 學(xué)習(xí) 失真 優(yōu)化 快速 決策 系統(tǒng) 及其 方法 | ||
1.一種HEVC幀內(nèi)編碼中基于深度學(xué)習(xí)的率失真優(yōu)化快速?zèng)Q策方法,其特征在于,具體包括以下步驟:
步驟1)視頻數(shù)據(jù)集準(zhǔn)備;
步驟2)搭建單步?jīng)Q策網(wǎng)絡(luò)模型;
步驟3)對單步?jīng)Q策網(wǎng)絡(luò)進(jìn)行訓(xùn)練;
步驟4)應(yīng)用單步?jīng)Q策網(wǎng)絡(luò)實(shí)現(xiàn)低復(fù)雜度HEVC幀內(nèi)編碼;
步驟5)測試編碼器RD性能及編碼復(fù)雜度;
所述步驟1)具體包括以下步驟:為了保證網(wǎng)絡(luò)模型的泛化性能以及公平地評價(jià)模型性能,從不同的分辨率中隨機(jī)選取用于訓(xùn)練和測試的視頻;分別用HEVC參考測試模型對選取的視頻進(jìn)行全幀內(nèi)模式編碼,并生成視頻數(shù)據(jù)集;
所述步驟2)具體包括以下步驟:
步驟201)根據(jù)步驟1)收集到的視頻收集數(shù)據(jù),所述視頻數(shù)據(jù)集包括:輸入數(shù)據(jù)和標(biāo)簽數(shù)據(jù);所述輸入數(shù)據(jù)包括:當(dāng)前CU的亮度信息和其在前一幀中同位CU的決策信息;所述標(biāo)簽數(shù)據(jù)包括:當(dāng)前CU的CU/PU劃分和預(yù)測模式的決策信息;
步驟202)將HEVC幀內(nèi)編碼,采用PU的劃分方式建模為對CU的第4級分割,從而將每級CU上CU/PU的劃分決策與PU的35種幀內(nèi)預(yù)測模式的選擇共同建模為多分類問題;
步驟203)對于每個(gè)CU,由于亮度分量包含了大多數(shù)內(nèi)容信息,其亮度信息被輸入到網(wǎng)絡(luò)中,考慮到視頻內(nèi)容的時(shí)間相關(guān)性,還利用了前一幀中的同位CU的決策信息,首先通過均值移除來提取與決策具有直接相關(guān)性的紋理信息;
步驟204)通過兩種卷積層分別將視頻數(shù)據(jù)分成兩個(gè)流:三個(gè)非重疊卷積層實(shí)現(xiàn)的支流和兩個(gè)常規(guī)卷積層實(shí)現(xiàn)的支流;
三個(gè)非重疊卷積層實(shí)現(xiàn)的支流用于提取與CU/PU分區(qū)相關(guān)的特征,且卷積的步長等于相應(yīng)卷積核的寬度,因而輸出特征圖中每個(gè)像素將具有互不重疊的感受野,其大小正好對應(yīng)于當(dāng)前CU的一個(gè)子CU;
兩個(gè)常規(guī)卷積層實(shí)現(xiàn)的支流用于提取與預(yù)測模式選擇相關(guān)的特征,更好地提取當(dāng)前CU中相鄰像素之間的關(guān)系,提供對當(dāng)前CU的總體描述;
所述步驟3)具體包括以下步驟:
使用交叉熵作為訓(xùn)練時(shí)的損失函數(shù),交叉熵描述了兩個(gè)概率分布之間的差異,概率分布a和b之間的交叉熵表示為:
對于CU深度為
對于不同CU深度的網(wǎng)絡(luò)分別使用相應(yīng)的數(shù)據(jù)集進(jìn)行訓(xùn)練;
所述步驟4)具體包括以下步驟:
每個(gè)CU有三種類型的輸出:(1)分割,(2)模式選擇,(3)不確定;
對于深度為
如果處于第一維且,則輸出決策為“分割”,這意味著當(dāng)前CU將被直接分割成四個(gè)子CU,無需計(jì)算其本身的率失真代價(jià);
如果處于第
否則,如果低于相應(yīng)的閾值,則輸出決策為“不確定”;
所述步驟5)具體包括以下步驟:
通過編碼時(shí)間節(jié)省率來評價(jià)復(fù)雜度的降低程度:
其中表示使用HM?15.0的編碼時(shí)間,而表示使用單步?jīng)Q策網(wǎng)絡(luò)實(shí)現(xiàn)的低復(fù)雜度編碼器的編碼時(shí)間;
單步?jīng)Q策網(wǎng)絡(luò)從待編碼視頻的第二幀開始執(zhí)行,因?yàn)樵摼W(wǎng)絡(luò)需要前一幀中的決策信息作為輸入來得到當(dāng)前幀的決策結(jié)果。
2.一種HEVC幀內(nèi)編碼中基于深度學(xué)習(xí)的率失真優(yōu)化快速?zèng)Q策系統(tǒng),其特征在于,包括以下模塊:
用于視頻數(shù)據(jù)集準(zhǔn)備的第一模塊;
用于搭建單步?jīng)Q策網(wǎng)絡(luò)模型的第二模塊;
用于對單步?jīng)Q策網(wǎng)絡(luò)進(jìn)行訓(xùn)練的第三模塊;
用于應(yīng)用單步?jīng)Q策網(wǎng)絡(luò)實(shí)現(xiàn)低復(fù)雜度HEVC幀內(nèi)編碼的第四模塊;
用于測試編碼器RD性能及編碼復(fù)雜度的第五模塊;
所述第一模塊進(jìn)一步用于為了保證網(wǎng)絡(luò)模型的泛化性能以及公平地評價(jià)模型性能,從不同的分辨率中隨機(jī)選取用于訓(xùn)練和測試的視頻;分別用HEVC參考測試模型對選取的視頻進(jìn)行全幀內(nèi)模式編碼,并生成視頻數(shù)據(jù)集;
所述第二模塊進(jìn)一步用于根據(jù)收集到的視頻收集數(shù)據(jù),所述視頻數(shù)據(jù)集包括:輸入數(shù)據(jù)和標(biāo)簽數(shù)據(jù);所述輸入數(shù)據(jù)包括:當(dāng)前CU的亮度信息和其在前一幀中同位CU的決策信息;所述標(biāo)簽數(shù)據(jù)包括:當(dāng)前CU的CU/PU劃分和預(yù)測模式的決策信息;將HEVC幀內(nèi)編碼,采用PU的劃分方式建模為對CU的第4級分割,從而將每級CU上CU/PU的劃分決策與PU的35種幀內(nèi)預(yù)測模式的選擇共同建模為多分類問題;對于每個(gè)CU,由于亮度分量包含了大多數(shù)內(nèi)容信息,其亮度信息被輸入到網(wǎng)絡(luò)中,考慮到視頻內(nèi)容的時(shí)間相關(guān)性,還利用了前一幀中的同位CU的決策信息,首先通過均值移除來提取與決策具有直接相關(guān)性的紋理信息;通過兩種卷積層分別將視頻數(shù)據(jù)分成兩個(gè)流:三個(gè)非重疊卷積層實(shí)現(xiàn)的支流和兩個(gè)常規(guī)卷積層實(shí)現(xiàn)的支流;所述三個(gè)非重疊卷積層實(shí)現(xiàn)的支流用于提取與CU/PU分區(qū)相關(guān)的特征,且卷積的步長等于相應(yīng)卷積核的寬度,因而輸出特征圖中每個(gè)像素將具有互不重疊的感受野,其大小正好對應(yīng)于當(dāng)前CU的一個(gè)子CU;兩個(gè)常規(guī)卷積層實(shí)現(xiàn)的支流用于提取與預(yù)測模式選擇相關(guān)的特征,更好地提取當(dāng)前CU中相鄰像素之間的關(guān)系,提供對當(dāng)前CU的總體描述;
所述第三模塊進(jìn)一步用于使用交叉熵作為訓(xùn)練時(shí)的損失函數(shù),交叉熵描述了兩個(gè)概率分布之間的差異,概率分布a和b之間的交叉熵表示為:
對于CU深度為
對于不同CU深度的網(wǎng)絡(luò)分別使用相應(yīng)的數(shù)據(jù)集進(jìn)行訓(xùn)練;
所述第四模塊進(jìn)一步用于每個(gè)CU有三種類型的輸出:(1)分割,(2)模式選擇,(3)不確定;
對于深度為
如果處于第一維且,則輸出決策為“分割”,這意味著當(dāng)前CU將被直接分割成四個(gè)子CU,無需計(jì)算其本身的率失真代價(jià);
如果處于第
否則,如果低于相應(yīng)的閾值,則輸出決策為“不確定”;
所述第五模塊進(jìn)一步用于通過編碼時(shí)間節(jié)省率來評價(jià)復(fù)雜度的降低程度:
其中表示使用HM?15.0的編碼時(shí)間,而表示使用單步?jīng)Q策網(wǎng)絡(luò)實(shí)現(xiàn)的低復(fù)雜度編碼器的編碼時(shí)間;
單步?jīng)Q策網(wǎng)絡(luò)從待編碼視頻的第二幀開始執(zhí)行,因?yàn)樵摼W(wǎng)絡(luò)需要前一幀中的決策信息作為輸入來得到當(dāng)前幀的決策結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蔡曉剛,未經(jīng)蔡曉剛許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010157663.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





