[發(fā)明專利]一種用于深度學(xué)習(xí)編碼的跨平臺(tái)熵編碼方法及解碼方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010727133.4 | 申請(qǐng)日: | 2020-07-26 |
| 公開(公告)號(hào): | CN112019865A | 公開(公告)日: | 2020-12-01 |
| 發(fā)明(設(shè)計(jì))人: | 王培;其他發(fā)明人請(qǐng)求不公開姓名 | 申請(qǐng)(專利權(quán))人: | 杭州皮克皮克科技有限公司 |
| 主分類號(hào): | H04N19/91 | 分類號(hào): | H04N19/91;H04N19/85 |
| 代理公司: | 上海恒慧知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 31317 | 代理人: | 徐紅銀 |
| 地址: | 310018 浙江省杭州市杭州經(jīng)濟(jì)技術(shù)開發(fā)區(qū)*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 深度 學(xué)習(xí) 編碼 平臺(tái) 方法 解碼 | ||
本發(fā)明公開了一種用于深度學(xué)習(xí)編碼的跨平臺(tái)熵編碼方法及解碼方法,包括:確定計(jì)算基于深度學(xué)習(xí)編碼的熵編碼模型的網(wǎng)絡(luò)模塊;將網(wǎng)絡(luò)模塊中的模型參數(shù)替換為精度大于等于float64的浮點(diǎn)數(shù)的模型參數(shù),并將其中計(jì)算所用的中間變量也替換為精度大于等于float64的浮點(diǎn)數(shù)的中間變量;載入訓(xùn)練好的模型參數(shù),對(duì)基于深度學(xué)習(xí)編碼的熵編碼模型進(jìn)行初始化。通過本發(fā)明,可以跨平臺(tái)使用,且不需要重新設(shè)計(jì),重新訓(xùn)練模型參數(shù),可以直接應(yīng)用于他們的部署,而不會(huì)導(dǎo)致性能及效率的下降。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像編碼技術(shù)領(lǐng)域,特別涉及一種用于深度學(xué)習(xí)編碼的跨平臺(tái)熵編碼方法及解碼方法。
背景技術(shù)
近年來,基于深度學(xué)習(xí)的圖像壓縮方法引起了很多研究者的關(guān)注。研究人員已經(jīng)這個(gè)研究方向已經(jīng)取得了很多成果。比如2016年Toderici等人提出了一種基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的圖像壓縮框架,取得了超越目前最常用的傳統(tǒng)編碼器JPEG的壓縮性能,這是基于學(xué)習(xí)的方法第一次超越傳統(tǒng)方法。2018年,另一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的編碼框架,取得了超越當(dāng)時(shí)最好的傳統(tǒng)編碼方法BPG的性能。這些成果充分表明基于深度學(xué)些的圖像編碼方法擁有巨大的潛力。
基于深度學(xué)習(xí)編碼方法的框架本質(zhì)上和傳統(tǒng)編碼框架類似,由正變換,量化,熵編碼,反變換等模塊組成。其中各個(gè)模塊都是由卷積操作組成。這些卷積層的參數(shù)在最小化率失真損失時(shí),可以聯(lián)合優(yōu)化,直到達(dá)到一個(gè)最優(yōu)解。
在實(shí)際應(yīng)用時(shí),需要將正變換后的圖像表征進(jìn)行熵編碼,得到二進(jìn)制的碼流,進(jìn)行存儲(chǔ)或傳輸。當(dāng)使用基于超先驗(yàn)的熵編碼方法時(shí),需要先得到熵編碼模型。熵編碼模型用來對(duì)圖像表征進(jìn)行熵編碼,在編碼端和解碼端使用的熵編碼模型必須一模一樣,才能正確解碼二進(jìn)制碼流,否則熵解碼會(huì)失敗,導(dǎo)致整個(gè)圖像解碼過程失敗。
在使用基于深度學(xué)習(xí)的圖像編解碼方法時(shí),由于不同平臺(tái)的計(jì)算方式,加速策略等不同,導(dǎo)致解碼端解碼得到的熵模型和編碼端不能完全一致,從而使得解碼過程有很大概率失敗。這個(gè)問題極大阻礙了基于深度學(xué)習(xí)圖像編碼的實(shí)際應(yīng)用,因?yàn)榫幋a解往往運(yùn)行在不同設(shè)備上,而編解碼平臺(tái)通常是不一樣的,比如,在CPU上編碼,GPU上解碼;GPU上編碼,另一個(gè)GPU上解碼等等場(chǎng)景,都會(huì)有很大概率會(huì)解碼失敗。
傳統(tǒng)的熵編碼方法一般是使用整數(shù)形式進(jìn)行計(jì)算,得到的熵編碼模型在各個(gè)平臺(tái)上是一致的。但是在深度學(xué)習(xí)編碼這一新興的編碼框架下,計(jì)算熵編碼模型一般使用浮點(diǎn)數(shù),比如采用常見的深度學(xué)習(xí)框架Tensorflow或者Pytorch,模型參數(shù)和運(yùn)算使用的臨時(shí)變量都是默認(rèn)采用32位浮點(diǎn)數(shù)。由于32位浮點(diǎn)數(shù)表示的精度有限,而不同平臺(tái)的浮點(diǎn)數(shù)運(yùn)算實(shí)現(xiàn)在誤差允許范圍內(nèi)會(huì)有微弱的差別,該差別低于精度要求不高的應(yīng)用沒有顯著影響,但是對(duì)于計(jì)算熵編碼模型,萬(wàn)分之一的誤差都會(huì)導(dǎo)致熵解碼失敗,從而使整個(gè)解碼過程無(wú)效。去年,Google的Ballé等人提出了一種整數(shù)深度神經(jīng)網(wǎng)絡(luò)的方法來解決這個(gè)問題。該方法可以有效的解決編解碼端計(jì)算熵編碼模型精度不同的問題,但是該方法的缺點(diǎn)在于需要重新設(shè)計(jì)網(wǎng)絡(luò),重新訓(xùn)練網(wǎng)絡(luò),對(duì)于現(xiàn)有已經(jīng)訓(xùn)練好的模型不適用。
發(fā)明內(nèi)容
本發(fā)明針對(duì)上述現(xiàn)有技術(shù)中存在的問題,提出一種用于深度學(xué)習(xí)編碼的跨平臺(tái)熵編碼方法及解碼方法,可以部署在不同平臺(tái)上,跨平臺(tái)使用,并且不需要重新設(shè)計(jì),重新訓(xùn)練模型參數(shù),可以直接應(yīng)用于他們的部署,而不會(huì)導(dǎo)致性能及效率的下降。
為解決上述技術(shù)問題,本發(fā)明是通過如下技術(shù)方案實(shí)現(xiàn)的:
本發(fā)明提供一種用于深度學(xué)習(xí)編碼的跨平臺(tái)熵編碼方法,其包括以下步驟:
S11:確定計(jì)算基于深度學(xué)習(xí)編碼的熵編碼模型的網(wǎng)絡(luò)模塊;
S12:將所述S11中的網(wǎng)絡(luò)模塊中的模型參數(shù)替換為精度大于等于float64的浮點(diǎn)數(shù)的模型參數(shù),并將其中計(jì)算所用的中間變量也替換為精度大于等于float64的浮點(diǎn)數(shù)的中間變量;
S13:載入訓(xùn)練好的模型參數(shù),對(duì)基于深度學(xué)習(xí)編碼的熵編碼模型進(jìn)行初始化。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州皮克皮克科技有限公司,未經(jīng)杭州皮克皮克科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010727133.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 體征碼及其編碼方法
- 編碼裝置和編碼方法以及解碼裝置和解碼方法
- 聲音信號(hào)編碼方法、聲音信號(hào)解碼方法、編碼裝置、解碼裝置、聲音信號(hào)處理系統(tǒng)、聲音信號(hào)編碼程序以及聲音信號(hào)解碼程序
- 用于下一代視頻的編碼/未編碼的數(shù)據(jù)的內(nèi)容自適應(yīng)熵編碼
- 編碼光符號(hào)編碼
- 一種可變幀率的編碼方法及裝置
- 一種物聯(lián)網(wǎng)編碼方法及系統(tǒng)
- 點(diǎn)陣編碼及解碼方法
- 一種視頻編碼方法、裝置和存儲(chǔ)介質(zhì)
- 視頻編碼方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





