[發明專利]一種低比特量化網絡重訓彌補激活函數的方法在審
| 申請號: | 202010460267.4 | 申請日: | 2020-05-27 |
| 公開(公告)號: | CN113743601A | 公開(公告)日: | 2021-12-03 |
| 發明(設計)人: | 周飛飛 | 申請(專利權)人: | 合肥君正科技有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04;G06F17/15 |
| 代理公司: | 北京智為時代知識產權代理事務所(普通合伙) 11498 | 代理人: | 王加嶺;楊靜 |
| 地址: | 230088 安徽省合肥市高新區望江*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 比特 量化 網絡 彌補 激活 函數 方法 | ||
本發明提供一種低比特量化網絡重訓彌補激活函數的方法,所述方法在全精度量化模型之中,對原有激活函數除以激活函數壓縮數據大小,經過原有模型公式計算之后再乘以對應的激活函數壓縮數據大小,即保持全精度數據分布,只是修改特征數據的離散度。
技術領域
本發明涉及神經網絡技術領域,特別涉及一種低比特量化網絡重訓彌補激活函數的方法。
背景技術
隨著計算機技術的快速發展,基于卷積神經網絡的算法成功應用于各個識別領域。在現有技術中,特別是,隨著卷積神經網絡模型堆疊的層數越來越多,為了使模型能夠在移動端正常運行,需要量化feature(特征)至低bit(低比特),從而降低模型計算量,但是目前很多對feature進行量化的方式,需要在原有全精度基礎之上進行微調,以此降低低bit量化帶來的精度損失。但是由于激活函數添加一系更量化操作節點,導致低bit量化重訓時出現精度損失,模型收斂時間長等一系列問題。現有技術中,在全精度基礎之上,對激活函數添加相應量化操作結點,基于全精度參數信息從頭開始訓練。
現有技術中對32bit量化為低比特時,由于需要保證量化后的精度,需要在原有全精度基礎之上進行微調,由于激活函數添加相對應量化操作方式,導致低bit模型參數分布相對于全精度出現較大差異,需要對低bit模型基于全精度量化重訓,但往往很難達到全精度水平,甚至無法收斂。
此外,現有技術中的常用術語如下:
激活函數,神經網絡中的每個神經元節點接受上一層神經元的輸出值作為本神經元的輸入值,并將輸入值傳遞給下一層,輸入層神經元節點會將輸入屬性值直接傳遞給下一層(隱層或輸出層)。在多層神經網絡中,上層節點的輸出和下層節點的輸入之間具有一個函數關系,這個函數稱為激活函數(又稱激勵函數),如圖2所示,Relu=max(0,x),Relu函數及其導數的圖像。
發明內容
本申請的方法旨在彌補由于激活函數添加對應量化操作結點所導致的模型收斂難甚至不收斂的情況,克服上述現有技術中存在的缺陷,解決現有低比特量化微調、重訓過程中存在網絡不收斂,訓練時間等相關問題。
本申請屬于深度神經網絡基于全精度量化進行量化重訓的一種技術,通過此種方式能有效提升網絡重訓過程中模型聚合度,剔除由于添加對應量化結點導致激活函數不收斂,使得模型達不到全精度的模型收斂。通過此種方式能使得模型更快達到全精度水平,有效降低由于激活函數添加量化結點導致模型不收斂情況。
具體地,本發明提供一種低比特量化網絡重訓彌補激活函數的方法,所述方法在全精度量化模型之中,對原有激活函數除以激活函數壓縮數據大小,經過原有模型公式計算之后再乘以對應的激活函數壓縮數據大小,即保持全精度數據分布,只是修改特征數據的離散度。
所述方法進一步包括以下步驟:
S1,假設第i層的特征為Xi,采用激活函數量化特征;
S2,在全精度基礎之上添加對應量化結點過程,實現特征量化至低比特,具體實現通過如下公式:
Xi=clip(Xi,relu_size)
Xi=Round{(Xi/relu_size)*2bit}/2bit
其中,relu_size為激活函數壓縮數據大小,特征壓縮到[0,relu_size],根據壓縮數據大小定義特征壓縮范圍;
S3,上述S2中公式計算之后再乘以對應relu_size,相當于保持全精度數據分布,只是修改特征數據的離散度。
所述的步驟S1中采用激活函數量化特征包括對8bit量化特征采用relu6激活函數,對4bit量化特征采用relu3激活函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥君正科技有限公司,未經合肥君正科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010460267.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鋁型材擠壓機防溢料裝置
- 下一篇:一種芯片級聯并行計算系統





