[發(fā)明專利]一種HEVC幀內(nèi)編碼中基于深度學習的率失真優(yōu)化快速決策系統(tǒng)及其方法有效
| 申請?zhí)枺?/td> | 202010157663.X | 申請日: | 2020-03-09 |
| 公開(公告)號: | CN111355956B | 公開(公告)日: | 2023-05-09 |
| 發(fā)明(設(shè)計)人: | 蔡曉剛 | 申請(專利權(quán))人: | 蔡曉剛 |
| 主分類號: | H04N19/149 | 分類號: | H04N19/149;H04N19/159;H04N19/14 |
| 代理公司: | 南京泰普專利代理事務(wù)所(普通合伙) 32360 | 代理人: | 竇賢宇 |
| 地址: | 210046 江蘇省南京市棲霞區(qū)*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 hevc 編碼 基于 深度 學習 失真 優(yōu)化 快速 決策 系統(tǒng) 及其 方法 | ||
本發(fā)明公開了一種HEVC幀內(nèi)編碼中基于深度學習的率失真優(yōu)化快速決策系統(tǒng)及其方法,屬于視頻編碼技術(shù)領(lǐng)域。考慮到編碼參數(shù)選擇時存在的內(nèi)在聯(lián)系,結(jié)合視頻內(nèi)容的時空相關(guān)性,來同時確定當前編碼單元的CU/PU分區(qū)和預(yù)測模式,避免了HEVC幀內(nèi)編碼中率失真優(yōu)化過程中的遍歷過程,能夠最大程度地降低計算復(fù)雜度,節(jié)省編碼時間。具體包括步驟:1)準備用于訓(xùn)練及測試決策網(wǎng)絡(luò)的視頻數(shù)據(jù)集;2)利用訓(xùn)練數(shù)據(jù)集分別在不同QP下對單步?jīng)Q策網(wǎng)絡(luò)進行訓(xùn)練,并保存訓(xùn)練后的網(wǎng)絡(luò)模型參數(shù);3)將單步?jīng)Q策網(wǎng)絡(luò)嵌入到HEVC參考模型HM.15.0中,實現(xiàn)低復(fù)雜度HEVC編碼器;4)分別使用不同QP下訓(xùn)練出的單步?jīng)Q策網(wǎng)絡(luò)模型對測試集上的視頻進行編碼,測試編碼復(fù)雜度和RD性能。
技術(shù)領(lǐng)域
本發(fā)明屬于視頻編碼技術(shù)領(lǐng)域,特別是涉及一種HEVC幀內(nèi)編碼中基于深度學習的率失真優(yōu)化快速決策系統(tǒng)及其方法。
背景技術(shù)
視頻編碼技術(shù)是視頻業(yè)務(wù)的基礎(chǔ),由于從視覺傳感器直接獲取到的原始視頻數(shù)據(jù)量巨大,為了有效地傳輸和存儲視頻,對原始視頻進行高碼率-失真(RD)質(zhì)量且低復(fù)雜度的壓縮編碼是很有必要的。近年來,視頻分辨率的進一步提升以及視頻業(yè)務(wù)中的實時性需求,對視頻編碼技術(shù)提出了更高的要求。作為最新的視頻編碼標準,高效視頻編碼標準H.265/HEVC可以達到顯著的高壓縮比。然而,H.265/HEVC引入了更多的編碼參數(shù),在編碼時需要通過遍歷率失真代價來確定最優(yōu)的編碼參數(shù)集,因而帶來了更高的編碼復(fù)雜度,很難滿足視頻業(yè)務(wù)中的實時性需求。因此,許多學者致力于低復(fù)雜度H.265/HEVC的研究,在不損失過多RD質(zhì)量的前提下,顯著降低編碼復(fù)雜度。
目前,低復(fù)雜度H.265/HEVC的研究主要包含傳統(tǒng)方法和基于深度學習的方法。傳統(tǒng)方法主要是一些啟發(fā)式的快速決策算法,通過提取編碼過程中的中間特征,以提前終止率失真優(yōu)化過程中對編碼單元(CU)和預(yù)測單元(PU)的劃分方式、預(yù)測模式等編碼參數(shù)的遍歷搜索,從而降低復(fù)雜度。這種方法基于手動提取特征和固定的閾值,因此在廣泛應(yīng)用時的魯棒性較差。近年來,基于深度學習的方法得到了廣泛發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)強大的學習能力使其能夠自動地提取與編碼參數(shù)決策相關(guān)的深度特征,從而快速做出率失真優(yōu)化的決策。然而,目前基于深度學習的方法通常將CU/PU劃分方式和預(yù)測模式的選擇分別建模為分類問題,在此基礎(chǔ)上分別進行決策。這些方法存在兩個主要缺陷。其一,從復(fù)雜度降低的角度來看,對CU/PU劃分決策和預(yù)測模式選擇是一個整體的遍歷過程,共同導(dǎo)致了HEVC編碼器計算復(fù)雜度大。因此,只關(guān)注其中一個任務(wù)并不能最大限度地降低復(fù)雜度。其二,CU/PU劃分決策與預(yù)測模式選擇之間存在著明顯的相關(guān)性,簡單地將這些決策視為單獨的過程并在兩個階段來進行決策也是不明智的。
發(fā)明內(nèi)容
本發(fā)明為解決上述背景技術(shù)中存在的技術(shù)問題,提供了一個單步?jīng)Q策網(wǎng)絡(luò),考慮到編碼參數(shù)選擇時存在的內(nèi)在聯(lián)系,結(jié)合視頻內(nèi)容的時空相關(guān)性,來同時確定當前編碼單元的CU/PU分區(qū)和預(yù)測模式,避免了HEVC幀內(nèi)編碼中率失真優(yōu)化過程中的遍歷過程,從而最大程度地降低計算復(fù)雜度的HEVC幀內(nèi)編碼中基于深度學習的率失真優(yōu)化快速決策系統(tǒng)及其方法。
本發(fā)明采用以下技術(shù)方案來實現(xiàn):一種HEVC幀內(nèi)編碼中基于深度學習的率失真優(yōu)化快速決策方法,具體包括以下步驟:
步驟1)視頻數(shù)據(jù)集準備;
步驟2)搭建單步?jīng)Q策網(wǎng)絡(luò)模型;
步驟3)對單步?jīng)Q策網(wǎng)絡(luò)進行訓(xùn)練;
步驟4)應(yīng)用單步?jīng)Q策網(wǎng)絡(luò)實現(xiàn)低復(fù)雜度HEVC幀內(nèi)編碼;
步驟5)測試編碼器RD性能及編碼復(fù)雜度。
在進一步的實施例中,所述步驟1)具體包括以下步驟:為了保證網(wǎng)絡(luò)模型的泛化性能以及公平地評價模型性能,從不同的分辨率中隨機選取用于訓(xùn)練和測試的視頻;分別用HEVC參考測試模型對選取的視頻進行全幀內(nèi)模式編碼,并生成視頻數(shù)據(jù)集。
在進一步的實施例中,所述步驟2)具體包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蔡曉剛,未經(jīng)蔡曉剛許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010157663.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





