[發(fā)明專利]一種HEVC幀內(nèi)編碼中基于深度學(xué)習(xí)的率失真優(yōu)化快速?zèng)Q策系統(tǒng)及其方法有效

申請?zhí)枺?/td>	202010157663.X	申請日：	2020-03-09
公開（公告）號：	CN111355956B	公開（公告）日：	2023-05-09
發(fā)明（設(shè)計(jì)）人：	蔡曉剛	申請（專利權(quán)）人：	蔡曉剛
主分類號：	H04N19/149	分類號：	H04N19/149;H04N19/159;H04N19/14
代理公司：	南京泰普專利代理事務(wù)所(普通合伙) 32360	代理人：	竇賢宇
地址：	210046 江蘇省南京市棲霞區(qū)***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種 hevc 編碼基于深度學(xué)習(xí) 失真優(yōu)化快速決策系統(tǒng) 及其方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種HEVC幀內(nèi)編碼中基于深度學(xué)習(xí)的率失真優(yōu)化快速?zèng)Q策方法，其特征在于，具體包括以下步驟：

步驟1）視頻數(shù)據(jù)集準(zhǔn)備；

步驟2）搭建單步?jīng)Q策網(wǎng)絡(luò)模型；

步驟3）對單步?jīng)Q策網(wǎng)絡(luò)進(jìn)行訓(xùn)練；

步驟4）應(yīng)用單步?jīng)Q策網(wǎng)絡(luò)實(shí)現(xiàn)低復(fù)雜度HEVC幀內(nèi)編碼；

步驟5）測試編碼器RD性能及編碼復(fù)雜度；

所述步驟1）具體包括以下步驟：為了保證網(wǎng)絡(luò)模型的泛化性能以及公平地評價(jià)模型性能，從不同的分辨率中隨機(jī)選取用于訓(xùn)練和測試的視頻；分別用HEVC參考測試模型對選取的視頻進(jìn)行全幀內(nèi)模式編碼，并生成視頻數(shù)據(jù)集；

所述步驟2）具體包括以下步驟：

步驟201）根據(jù)步驟1）收集到的視頻收集數(shù)據(jù)，所述視頻數(shù)據(jù)集包括：輸入數(shù)據(jù)和標(biāo)簽數(shù)據(jù)；所述輸入數(shù)據(jù)包括：當(dāng)前CU的亮度信息和其在前一幀中同位CU的決策信息；所述標(biāo)簽數(shù)據(jù)包括：當(dāng)前CU的CU/PU劃分和預(yù)測模式的決策信息；

步驟202）將HEVC幀內(nèi)編碼，采用PU的劃分方式建模為對CU的第4級分割，從而將每級CU上CU/PU的劃分決策與PU的35種幀內(nèi)預(yù)測模式的選擇共同建模為多分類問題；

步驟203）對于每個(gè)CU，由于亮度分量包含了大多數(shù)內(nèi)容信息，其亮度信息被輸入到網(wǎng)絡(luò)中，考慮到視頻內(nèi)容的時(shí)間相關(guān)性，還利用了前一幀中的同位CU的決策信息，首先通過均值移除來提取與決策具有直接相關(guān)性的紋理信息；

步驟204）通過兩種卷積層分別將視頻數(shù)據(jù)分成兩個(gè)流：三個(gè)非重疊卷積層實(shí)現(xiàn)的支流和兩個(gè)常規(guī)卷積層實(shí)現(xiàn)的支流；

三個(gè)非重疊卷積層實(shí)現(xiàn)的支流用于提取與CU/PU分區(qū)相關(guān)的特征，且卷積的步長等于相應(yīng)卷積核的寬度，因而輸出特征圖中每個(gè)像素將具有互不重疊的感受野，其大小正好對應(yīng)于當(dāng)前CU的一個(gè)子CU；

兩個(gè)常規(guī)卷積層實(shí)現(xiàn)的支流用于提取與預(yù)測模式選擇相關(guān)的特征，更好地提取當(dāng)前CU中相鄰像素之間的關(guān)系，提供對當(dāng)前CU的總體描述；

所述步驟3）具體包括以下步驟：

使用交叉熵作為訓(xùn)練時(shí)的損失函數(shù)，交叉熵描述了兩個(gè)概率分布之間的差異，概率分布a和b之間的交叉熵表示為：

對于CU深度為l的每個(gè)樣本r，和分別表示真實(shí)值和網(wǎng)絡(luò)的輸出預(yù)測向量，則損失函數(shù)如下：

對于不同CU深度的網(wǎng)絡(luò)分別使用相應(yīng)的數(shù)據(jù)集進(jìn)行訓(xùn)練；

所述步驟4）具體包括以下步驟：

每個(gè)CU有三種類型的輸出：（1）分割，（2）模式選擇，（3）不確定；

對于深度為l的給定CU，表示36維的輸出概率向量，而令和分別表示CU/PU劃分和預(yù)測模式選擇的閾值，中的最大值表示輸入CU最有可能做出的決策；

如果處于第一維且，則輸出決策為“分割”，這意味著當(dāng)前CU將被直接分割成四個(gè)子CU，無需計(jì)算其本身的率失真代價(jià)；

如果處于第i維（）且，則輸出決策為“模式選擇”，這意味著當(dāng)前CU將直接選擇相應(yīng)的預(yù)測模式作為最佳模式，而不需要遍歷所有35種模式，并且將跳過對更深層CU的遍歷；

否則，如果低于相應(yīng)的閾值，則輸出決策為“不確定”；

所述步驟5）具體包括以下步驟：

通過編碼時(shí)間節(jié)省率來評價(jià)復(fù)雜度的降低程度：

其中表示使用HM?15.0的編碼時(shí)間，而表示使用單步?jīng)Q策網(wǎng)絡(luò)實(shí)現(xiàn)的低復(fù)雜度編碼器的編碼時(shí)間；

單步?jīng)Q策網(wǎng)絡(luò)從待編碼視頻的第二幀開始執(zhí)行，因?yàn)樵摼W(wǎng)絡(luò)需要前一幀中的決策信息作為輸入來得到當(dāng)前幀的決策結(jié)果。

2.一種HEVC幀內(nèi)編碼中基于深度學(xué)習(xí)的率失真優(yōu)化快速?zèng)Q策系統(tǒng)，其特征在于，包括以下模塊：

用于視頻數(shù)據(jù)集準(zhǔn)備的第一模塊；

用于搭建單步?jīng)Q策網(wǎng)絡(luò)模型的第二模塊；

用于對單步?jīng)Q策網(wǎng)絡(luò)進(jìn)行訓(xùn)練的第三模塊；

用于應(yīng)用單步?jīng)Q策網(wǎng)絡(luò)實(shí)現(xiàn)低復(fù)雜度HEVC幀內(nèi)編碼的第四模塊；

用于測試編碼器RD性能及編碼復(fù)雜度的第五模塊；

所述第一模塊進(jìn)一步用于為了保證網(wǎng)絡(luò)模型的泛化性能以及公平地評價(jià)模型性能，從不同的分辨率中隨機(jī)選取用于訓(xùn)練和測試的視頻；分別用HEVC參考測試模型對選取的視頻進(jìn)行全幀內(nèi)模式編碼，并生成視頻數(shù)據(jù)集；

所述第二模塊進(jìn)一步用于根據(jù)收集到的視頻收集數(shù)據(jù)，所述視頻數(shù)據(jù)集包括：輸入數(shù)據(jù)和標(biāo)簽數(shù)據(jù)；所述輸入數(shù)據(jù)包括：當(dāng)前CU的亮度信息和其在前一幀中同位CU的決策信息；所述標(biāo)簽數(shù)據(jù)包括：當(dāng)前CU的CU/PU劃分和預(yù)測模式的決策信息；將HEVC幀內(nèi)編碼，采用PU的劃分方式建模為對CU的第4級分割，從而將每級CU上CU/PU的劃分決策與PU的35種幀內(nèi)預(yù)測模式的選擇共同建模為多分類問題；對于每個(gè)CU，由于亮度分量包含了大多數(shù)內(nèi)容信息，其亮度信息被輸入到網(wǎng)絡(luò)中，考慮到視頻內(nèi)容的時(shí)間相關(guān)性，還利用了前一幀中的同位CU的決策信息，首先通過均值移除來提取與決策具有直接相關(guān)性的紋理信息；通過兩種卷積層分別將視頻數(shù)據(jù)分成兩個(gè)流：三個(gè)非重疊卷積層實(shí)現(xiàn)的支流和兩個(gè)常規(guī)卷積層實(shí)現(xiàn)的支流；所述三個(gè)非重疊卷積層實(shí)現(xiàn)的支流用于提取與CU/PU分區(qū)相關(guān)的特征，且卷積的步長等于相應(yīng)卷積核的寬度，因而輸出特征圖中每個(gè)像素將具有互不重疊的感受野，其大小正好對應(yīng)于當(dāng)前CU的一個(gè)子CU；兩個(gè)常規(guī)卷積層實(shí)現(xiàn)的支流用于提取與預(yù)測模式選擇相關(guān)的特征，更好地提取當(dāng)前CU中相鄰像素之間的關(guān)系，提供對當(dāng)前CU的總體描述；

所述第三模塊進(jìn)一步用于使用交叉熵作為訓(xùn)練時(shí)的損失函數(shù)，交叉熵描述了兩個(gè)概率分布之間的差異，概率分布a和b之間的交叉熵表示為：

對于CU深度為l的每個(gè)樣本r，和分別表示真實(shí)值和網(wǎng)絡(luò)的輸出預(yù)測向量，則損失函數(shù)如下：

對于不同CU深度的網(wǎng)絡(luò)分別使用相應(yīng)的數(shù)據(jù)集進(jìn)行訓(xùn)練；

所述第四模塊進(jìn)一步用于每個(gè)CU有三種類型的輸出：（1）分割，（2）模式選擇，（3）不確定；

對于深度為l的給定CU，表示36維的輸出概率向量，而令和分別表示CU/PU劃分和預(yù)測模式選擇的閾值，中的最大值表示輸入CU最有可能做出的決策；

如果處于第一維且，則輸出決策為“分割”，這意味著當(dāng)前CU將被直接分割成四個(gè)子CU，無需計(jì)算其本身的率失真代價(jià)；

否則，如果低于相應(yīng)的閾值，則輸出決策為“不確定”；

所述第五模塊進(jìn)一步用于通過編碼時(shí)間節(jié)省率來評價(jià)復(fù)雜度的降低程度：

其中表示使用HM?15.0的編碼時(shí)間，而表示使用單步?jīng)Q策網(wǎng)絡(luò)實(shí)現(xiàn)的低復(fù)雜度編碼器的編碼時(shí)間；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蔡曉剛，未經(jīng)蔡曉剛許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010157663.X/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

H 電學(xué)

H04 電通信技術(shù)
H04N 圖像通信，如電視

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】