[發明專利]一種基于參數量化的深度學習網絡模型優化方法在審
| 申請號: | 202310162619.1 | 申請日: | 2023-02-24 |
| 公開(公告)號: | CN116524173A | 公開(公告)日: | 2023-08-01 |
| 發明(設計)人: | 鈕賽賽;邵艷明;蔡彬;史慶杰;張晗 | 申請(專利權)人: | 上海航天控制技術研究所 |
| 主分類號: | G06V10/25 | 分類號: | G06V10/25;G06V10/44;G06V10/774;G06V10/82;G06N3/0464;G06N3/0495 |
| 代理公司: | 中國航天科技專利中心 11009 | 代理人: | 陳鵬 |
| 地址: | 201109 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 參數 量化 深度 學習 網絡 模型 優化 方法 | ||
1.一種基于參數量化的深度學習網絡模型優化方法,其特征在于包括:
構建基于YOLOv3-tiny的輕量化網絡模型并訓練得到初步的浮點型的網絡權重參數;所述輕量化網絡模型包括卷積層、批歸一化層、激活函數、最大池化層,上采樣層、路由層,
對所設計的輕量化網絡模型進行通道級量化;
對得到的初步網絡進行重訓練,并在重訓練過程中采用分步量化的方式實現網絡權重的量化.。
2.根據權利要求1所述的一種基于參數量化的深度學習網絡模型優化方法,其特征在于:
所述輕量化網絡模型中,卷積層用于從輸入圖像中提取高維特征,具體為:
式中,wn表示第n層的權重,xn-1表示第n層的輸入特征值,on表示第n層的輸出,K為卷積核的寬度,Cn為第n層輸出特征值的通道數。
3.根據權利要求2所述的一種基于參數量化的深度學習網絡模型優化方法,其特征在于:
所述批歸一化層具體為:
式中,x,y分別表示批歸一化層的輸入和輸出,μ(i)、σ(i)分別表示一個批次中特征圖在第i個通道的平均值和方差,γ(i)和β(i)是歸一化層中的可學習通道級參數,ε用于避免數據溢出。
4.根據權利要求3所述的一種基于參數量化的深度學習網絡模型優化方法,其特征在于:
所述激活函數采用ReLU函數作為兩個卷積層之間的采用激活函數:
ReLU=max(0,x)。
5.根據權利要求4所述的一種基于參數量化的深度學習網絡模型優化方法,其特征在于:
最大池化層用于數據降維,減少計算量,加強圖像特征的不變性,同時增大感受野;上采樣層用于將圖像特征恢復到輸入維度,實現目標位置輸出,路由層通過級聯的兩個卷積層的輸出特征值獲取多尺度融合的特征量。
6.根據權利要求5所述的一種基于參數量化的深度學習網絡模型優化方法,其特征在于:
所述對所設計的輕量化網絡模型進行通道級量化具體為:
對各層的不同通道使用不同的量化區間進行量化參數匹配,以提高輕量化網絡模型的模型精度,對各層i中通道j的通道級量化操作具體為:
通過maxij和minij記錄該層通道參數的分布間隔,對長尾權重進行裁剪,得到參數的量化范圍為dij,平均值為mij,當前層i中通道j的權重記錄為wij,量化權重wqij和恢復的權重wrij根據dij、mij和量化比特位數b計算;
遍歷各層各通道的量化參數匹配后完成通道級量化。
7.根據權利要求6所述的一種基于參數量化的深度學習網絡模型優化方法,其特征在于:
所述重訓練過程中采用分步量化的方式具體為:
對通道級量化處理后的輕量化網絡模型進行預設迭代步數的模型重訓練,重訓練過程中對各層權重實行隨機量化以消除輕量化網絡模型對固定特征量的依賴性直至輕量化網絡模型收斂,其中:
模型重訓練步驟如下:
在前向推理過程中,通過參數分布選擇量化范圍;將超出量化范圍的參數限制在量化范圍內,記錄全精度權重作為更新依據;
根據全精度參數和量化后參數的平均絕對誤差更新縮放因子、量化范圍dij和平均值mij;
在誤差反向傳播過程中,依據量化后參數前向推理得到的目標與實際目標之間在損失函數下的損失,逐步反向更新各個權重參數;
經過多步迭代中的多輪前向推理和反向傳播,達到網絡模型的權重參數分步量化和網絡推理的重新收斂的效果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海航天控制技術研究所,未經上海航天控制技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310162619.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種保溫墻體結構及具有其的綠色建筑
- 下一篇:一種空氣環境質量檢測裝置





