[發明專利]一種深度圖像/視頻壓縮網絡的訓練方法有效
| 申請號: | 202110357098.6 | 申請日: | 2021-04-01 |
| 公開(公告)號: | CN113079377B | 公開(公告)日: | 2022-09-30 |
| 發明(設計)人: | 陳志波;郭宗昱 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | H04N19/172 | 分類號: | H04N19/172;H04N19/124;H04N19/147;H04N19/42;H04N19/44;H04N19/91;G06N3/04 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;韓珂 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 深度 圖像 視頻壓縮 網絡 訓練 方法 | ||
1.一種深度圖像/視頻壓縮網絡的訓練方法,其特征在于,包括:
第一個階段中,輸入的圖像x通過變換編碼網絡ga產生隱層變量y,隱層變量y經過熵編碼網絡ha產生邊際碼流z,加上加性均值噪聲U后變為帶噪邊際碼流再經過噪聲產生分支hsq恢復出覆蓋整個隱層空間的量化步長Δ,通過量化步長Δ采樣獲得均值噪聲UΔ生成再通過變換解碼網絡gs恢復出解碼圖像同時,采用包含上下文模型gcm的熵估計模塊和熵解碼模塊hs結合帶噪邊際碼流來估計隱層變量的分布,進而在訓練時計算隱層變量的碼率;此階段將得到訓練好的變換編碼網絡ga、熵編碼網絡ha與噪聲產生分支hsq;
第二階段中,固定變換編碼網絡ga、熵編碼網絡ha與噪聲產生分支hsq,將加性均值噪聲U替換為硬量化的方式,采用硬量化的方式得到帶噪邊際碼流以及采用硬量化的方式得到離散的量化結果再輸入至變換解碼網絡gs,第二階段訓練對象為包含上下文模型gcm的熵估計模塊和熵解碼模塊hs、以及變換解碼網絡gs;
第二階段中,通過熵編碼網絡ha輸出的邊際碼流z,采用硬量化的方式得到帶噪邊際碼流并由噪聲產生分支輸出形狀與隱層變量y相同的量化步長Δ′用以量化隱層變量y,再采用硬量化的方式產生離散的量化結果輸入至變換解碼網絡gs恢復出解碼圖像同時,采用包含上下文模型gcm的熵估計模塊和熵解碼模塊hs結合帶噪邊際碼流來估計隱層變量的分布,進而在訓練時計算的碼率。
2.根據權利要求1所述的一種深度圖像/視頻壓縮網絡的訓練方法,其特征在于,所述噪聲產生分支由三層卷積層和一個指數激活層依次連接構成,用以保證網絡輸出的量化步長數值上是正數。
3.根據權利要求1所述的一種深度圖像/視頻壓縮網絡的訓練方法,其特征在于,第一個階段中,通過得到的量化步長Δ,在區間[-Δ/2,Δ/2]采樣獲得均值噪聲UΔ,加到隱層變量y上,生成
4.根據權利要求1所述的一種深度圖像/視頻壓縮網絡的訓練方法,其特征在于,第二階段中,采用硬量化的方式產生離散的量化結果的公式為:
其中,round表示四舍五入。
5.根據權利要求1所述的一種深度圖像/視頻壓縮網絡的訓練方法,其特征在于,所述輸入的圖像x為單獨的一幅圖像,或者視頻中的單幀圖像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110357098.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種磁材自動化生產線結構
- 下一篇:一種蚧殼蟲遷地生活史觀測研究方法
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





