[發(fā)明專利]基于深度學(xué)習(xí)的感興趣區(qū)域圖像編碼、解碼系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 201910240106.1 | 申請日: | 2019-03-27 |
| 公開(公告)號: | CN109889839B | 公開(公告)日: | 2020-11-20 |
| 發(fā)明(設(shè)計)人: | 陳立;蔡春磊;張小云;高志勇;魯國 | 申請(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號: | H04N19/167 | 分類號: | H04N19/167;H04N19/146;H04N19/147;H04N19/91;H04N19/182;H04N19/124;H04N19/44;H04N19/33 |
| 代理公司: | 上海恒慧知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 31317 | 代理人: | 徐紅銀 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 學(xué)習(xí) 感興趣 區(qū)域 圖像 編碼 解碼 系統(tǒng) 方法 | ||
本發(fā)明公開了一種基于深度學(xué)習(xí)的感興趣區(qū)域圖像編碼系統(tǒng)及方法,包括感興趣區(qū)域編碼網(wǎng)絡(luò)模塊、碼率分配模塊和熵編碼模塊。圖像輸入系統(tǒng)后,感興趣區(qū)域編碼網(wǎng)絡(luò)模塊同時對輸入圖像進(jìn)行正向多尺度分解變換以及感興趣區(qū)域分割預(yù)測,得到圖像的多尺度特征和感興趣區(qū)域掩模,再經(jīng)過碼率分配模塊為感興趣區(qū)域分配更多的特征,分配后的特征經(jīng)過量化和熵編碼得到二進(jìn)制碼流;同時提供了一種感興趣區(qū)域圖像解碼系統(tǒng)及方法,用于解碼上述編碼系統(tǒng)及方法形成的編碼。本發(fā)明使用深度學(xué)習(xí)技術(shù)構(gòu)建感興趣區(qū)域編解碼網(wǎng)絡(luò)和熵編解碼器,利用大量數(shù)據(jù)訓(xùn)練得到最優(yōu)模型參數(shù),在實際應(yīng)用中可達(dá)到顯著優(yōu)于現(xiàn)有感興趣編碼系統(tǒng)的主觀和客觀的編碼性能。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像處理領(lǐng)域,尤其是涉及一種基于深度學(xué)習(xí)的感興趣區(qū)域圖像編碼、解碼系統(tǒng)及方法。
背景技術(shù)
如果在進(jìn)行圖像編碼時為人們感興趣的區(qū)域分配比背景區(qū)域更多的碼字,就既明顯地減少編碼所需碼率,也能保持人們感興趣內(nèi)容有較高的編碼質(zhì)量。感興趣區(qū)域圖像編碼可以為眾多圖像處理和分析系統(tǒng)減少大量的數(shù)據(jù)冗余,因此在實際應(yīng)用中有著十分重要的實用價值。
感興趣區(qū)域編碼和一般圖像編碼類似,仍然可以建模為一個率失真最優(yōu)化的問題,不同在于需要對感興趣區(qū)域的失真賦予更大的懲罰。這是個高度非線性的問題,很難直接求解。對于感興趣區(qū)域圖像編碼的研究已經(jīng)有較長的歷史了,研究人員提出了大量的方法,但是大多數(shù)方法都基于一種級聯(lián)的框架。該框架將感興趣區(qū)域編碼分為兩個獨立的步驟:感興趣區(qū)域預(yù)測和基于感興趣掩模的編碼。使用該框架的編碼器首先使用基于目標(biāo)檢測或分割的方法預(yù)測出感興趣區(qū)域,生成一副二進(jìn)制掩模。然后基于該掩模,采用某種編碼標(biāo)準(zhǔn)進(jìn)行編碼,為掩模指示的區(qū)域分配更多的碼字,從而達(dá)到感興趣區(qū)域編碼的目的。這種傳統(tǒng)的級聯(lián)式的框架很好理解,也容易基于現(xiàn)有方法實現(xiàn),但是這種框架從理論上無法得到一種最優(yōu)化的感興趣區(qū)域編碼系統(tǒng)。
近幾年深度學(xué)習(xí)技術(shù)在圖像處理和分析領(lǐng)域取得多項重大進(jìn)展。深度學(xué)習(xí)技術(shù),尤其是卷積神經(jīng)網(wǎng)絡(luò)技術(shù),被證明有十分強大的解決復(fù)雜優(yōu)化問題的能力。比如He等人提出的mask-rcnn,同時解決了目標(biāo)檢測,目標(biāo)分割和目標(biāo)分類的綜合優(yōu)化問題。而且基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)分割和圖像編碼的研究,也取得了許多卓著的成果。這些研究進(jìn)展,啟發(fā)了我們使用深度學(xué)習(xí)技術(shù),來解決感興趣區(qū)域編碼這一復(fù)雜的優(yōu)化問題。
發(fā)明內(nèi)容
針對上述技術(shù)問題,提供了基于深度學(xué)習(xí)的感興趣區(qū)域圖像編碼、解碼系統(tǒng)及方法、同時提供了一種基于上述編碼、解碼系統(tǒng)及方法實現(xiàn)的編碼器、解碼器以及終端,結(jié)合深度學(xué)習(xí)技術(shù),在保持優(yōu)越編碼性能的同時,實現(xiàn)輸出目標(biāo)碼率的圖像壓縮。
本發(fā)明是通過以下技術(shù)方案實現(xiàn)的。
根據(jù)本發(fā)明的第一個方面,提供了一種基于深度學(xué)習(xí)的感興趣區(qū)域圖像編碼系統(tǒng),包括:
感興趣區(qū)域編碼網(wǎng)絡(luò)模塊,該模塊基于深度卷積神經(jīng)網(wǎng)絡(luò),將輸入原始圖像分解為多個尺度的圖像特征并進(jìn)行量化,同時對所述原始圖像進(jìn)行圖像分析得到感興趣區(qū)域掩模矩陣,將量化的所述多個尺度的圖像特征以及所述感興趣區(qū)域掩模矩陣發(fā)送至碼率分配模塊;
碼率分配模塊,根據(jù)所述感興趣區(qū)域編碼網(wǎng)絡(luò)模塊得到的所述感興趣區(qū)域掩模矩陣和所述多個尺度的圖像特征進(jìn)行碼率分配,并將分配后的整數(shù)圖像特征作為編碼結(jié)果發(fā)送至熵編碼模塊;
熵編碼模塊,將所述碼率分配模塊分配后的整數(shù)圖像特征編碼為二進(jìn)制碼流并輸出。
優(yōu)選地,所述感興趣區(qū)域編碼網(wǎng)絡(luò)模塊基于深度卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建而成,其中:卷積層采用標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò)層;歸一化層和采用廣義歸一化層;通道連接操作將多個尺度的圖像特征在通道維度上連接在一起,輸出完整的特征圖。
優(yōu)選地,所述碼率分配模塊基于高效的元素過濾或元素乘法操作。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910240106.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





