[發(fā)明專利]均衡流間壓縮速度的神經(jīng)網(wǎng)絡(luò)量化壓縮方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202011611154.6 | 申請(qǐng)日: | 2020-12-30 |
| 公開(公告)號(hào): | CN114697655B | 公開(公告)日: | 2023-04-11 |
| 發(fā)明(設(shè)計(jì))人: | 何皓源;王秉睿;支天;郭崎 | 申請(qǐng)(專利權(quán))人: | 中國科學(xué)院計(jì)算技術(shù)研究所 |
| 主分類號(hào): | H04N19/122 | 分類號(hào): | H04N19/122;H04N19/124;H04N19/13;H04N19/42;G06N3/082 |
| 代理公司: | 北京律誠同業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 11006 | 代理人: | 祁建國 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 均衡 壓縮 速度 神經(jīng)網(wǎng)絡(luò) 量化 方法 系統(tǒng) | ||
本發(fā)明提出一種基于均衡流間壓縮速度的神經(jīng)網(wǎng)絡(luò)量化壓縮方法,包括:步驟1、獲取經(jīng)過量化處理后待壓縮的神經(jīng)網(wǎng)絡(luò)數(shù)據(jù),對(duì)神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分塊,得到多個(gè)數(shù)據(jù)塊;步驟2、對(duì)每一個(gè)數(shù)據(jù)塊分配一個(gè)數(shù)據(jù)流進(jìn)行壓縮,每條數(shù)據(jù)流的壓縮包括:對(duì)數(shù)據(jù)塊進(jìn)行游程全零編碼,得到游程壓縮數(shù)據(jù),其中游程全零編碼僅對(duì)神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)中的零字符進(jìn)行游程編碼,對(duì)游程壓縮數(shù)據(jù)進(jìn)行規(guī)范化哈夫曼編碼,并對(duì)編碼結(jié)果進(jìn)行重整,得到規(guī)范哈夫曼編碼,作為數(shù)據(jù)塊的壓縮結(jié)果;步驟2包括:步驟21、監(jiān)測各數(shù)據(jù)流已經(jīng)壓縮編碼的數(shù)據(jù)量,向當(dāng)前編碼速度快的數(shù)據(jù)流的輸出緩存寫入虛字符對(duì)應(yīng)的虛編碼。均衡流間壓縮速度,縮小流水線之間的編碼差距,進(jìn)而避免產(chǎn)生死鎖。
技術(shù)領(lǐng)域
本發(fā)明涉及神經(jīng)網(wǎng)絡(luò)運(yùn)算領(lǐng)域,并特別涉及一種均衡流間壓縮速度的神經(jīng)網(wǎng)絡(luò)量化壓縮方法及系統(tǒng)。
背景技術(shù)
近年來,人工智能在信息量和硬件算力雙重爆發(fā)的背景下迅猛發(fā)展,已經(jīng)日趨成為生產(chǎn)力發(fā)展和技術(shù)創(chuàng)新的主要推動(dòng)力。作為人工智能技術(shù)的主要分支,神經(jīng)網(wǎng)絡(luò)算法為了進(jìn)一步提高模型精度,已經(jīng)遇到了結(jié)構(gòu)復(fù)雜、參數(shù)量和計(jì)算量巨大的技術(shù)瓶頸,限制了神經(jīng)網(wǎng)絡(luò)模型在追求吞吐率和能效比場景下的應(yīng)用,因此計(jì)算效率成為了下一階段的主要研究目標(biāo)。目前最有效的神經(jīng)網(wǎng)絡(luò)壓縮方法結(jié)合了低精度和稀疏化,能夠在一定程度上減少神經(jīng)網(wǎng)絡(luò)的參數(shù)量,但是無法進(jìn)一步挖掘剪枝和量化后的神經(jīng)網(wǎng)絡(luò)模型中的數(shù)據(jù)冗余。
剪枝(Pruning),如圖1所示,也可以稱作模型稀疏化,即直接將神經(jīng)網(wǎng)絡(luò)當(dāng)中重要性較低的一部分參數(shù)裁剪為0,與這部分參數(shù)有關(guān)的計(jì)算也都被屏蔽,按照裁剪的基本單元可以分為單個(gè)參數(shù)剪枝和結(jié)構(gòu)化參數(shù)剪枝。
量化(Quantization),如圖2所示,也可以稱作模型低比特化,即低精度表示的方法減少神經(jīng)網(wǎng)絡(luò)模型當(dāng)中部分或全部數(shù)據(jù)存儲(chǔ)所需要的比特?cái)?shù),進(jìn)而在降低參數(shù)量的同時(shí)也簡化了大部分的浮點(diǎn)運(yùn)算,達(dá)到模型壓縮的目的。
網(wǎng)絡(luò)量化的合理性來自于神經(jīng)網(wǎng)絡(luò)本身的數(shù)據(jù)分布特性,例如經(jīng)過激活層的輸出神經(jīng)元可能包含許多0,同時(shí)大部分權(quán)值的絕對(duì)值都落在[0,1]區(qū)間內(nèi),從而避免了大量的數(shù)據(jù)上溢,結(jié)合重訓(xùn)練過程我們可以很容易地恢復(fù)低精度量化后模型的精度。另一方面,為了保證神經(jīng)網(wǎng)絡(luò)的訓(xùn)練收斂速度和精度,如Caffe、Tensorflow和Pytorch這樣的深度學(xué)習(xí)開發(fā)框架主要使用的都是32位或64位浮點(diǎn)數(shù),這在ASIC或者FPGA硬件實(shí)現(xiàn)當(dāng)中通常是一種浪費(fèi),不但會(huì)帶來更多的存儲(chǔ)和計(jì)算開銷,也會(huì)顯著增加芯片當(dāng)中運(yùn)算單元的面積和功耗。
對(duì)大多數(shù)網(wǎng)絡(luò)模型的推理(Inference)運(yùn)算來說,8bit左右的低精度數(shù)據(jù)已經(jīng)能夠滿足網(wǎng)絡(luò)性能的要求,因此工業(yè)界對(duì)神經(jīng)網(wǎng)絡(luò)量化的技術(shù)應(yīng)用也已經(jīng)非常成熟,Nvidia的TensorRT運(yùn)算庫和國內(nèi)外的許多深度學(xué)習(xí)加速架構(gòu)都已經(jīng)支持并優(yōu)化了8bit定點(diǎn)數(shù)的神經(jīng)網(wǎng)絡(luò)運(yùn)算和存儲(chǔ)。
數(shù)據(jù)歸約(DataReduction),如圖3所示,即以一小部分?jǐn)?shù)據(jù)替代原始數(shù)據(jù)的方法減少神經(jīng)網(wǎng)絡(luò)模型當(dāng)中的參數(shù)數(shù)量。數(shù)據(jù)歸約原本是數(shù)據(jù)預(yù)處理當(dāng)中的概念,目前已經(jīng)不再局限于縮小神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)集規(guī)模,而是逐漸用于探索神經(jīng)網(wǎng)絡(luò)參數(shù)甚至網(wǎng)絡(luò)結(jié)構(gòu)的壓縮方法。按照被壓縮的數(shù)據(jù)形式,數(shù)據(jù)歸約又可被分為維度歸約(DimensionalityReduction)和數(shù)量歸約(DimensionalityReduction)兩類。
維度歸約的目標(biāo)為減少可學(xué)習(xí)參數(shù)的自變量個(gè)數(shù),例如對(duì)模型當(dāng)中的參數(shù)做小波變換、主成分分析或離散余弦變換等,然后利用數(shù)據(jù)的變換域特征進(jìn)行量化或者熵編碼等壓縮操作,結(jié)合剪枝、量化和重訓(xùn)練等方法,能夠從變換域角度削減神經(jīng)網(wǎng)絡(luò)模型的冗余性。這一思想與圖像壓縮的JPEG編碼中對(duì)直流分量采取的處理方法類似,也是利用了神經(jīng)網(wǎng)絡(luò)當(dāng)中的數(shù)據(jù)局部性,但還需要考慮到FeatureMap與自然圖像具有本質(zhì)區(qū)別,對(duì)于變換域參數(shù)的壓縮策略需要謹(jǐn)慎探索,以避免逆變換后的模型精度受到不可恢復(fù)的損失,進(jìn)而導(dǎo)致整個(gè)壓縮方法失效。
數(shù)量歸約則聚焦于更加直觀地減少參數(shù)數(shù)量的方法,例如線性回歸、聚類和采樣等,從而實(shí)現(xiàn)一定范圍內(nèi)的參數(shù)共享,共享粒度可以是參數(shù)矩陣、通道、卷積核、層甚至子網(wǎng)絡(luò)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院計(jì)算技術(shù)研究所,未經(jīng)中國科學(xué)院計(jì)算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011611154.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲(chǔ)介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





