[發明專利]量化神經網絡模型的片內執行方法、裝置、設備及介質在審
| 申請號: | 202211216879.4 | 申請日: | 2022-09-30 |
| 公開(公告)號: | CN115409161A | 公開(公告)日: | 2022-11-29 |
| 發明(設計)人: | 朱姍;孫誠程 | 申請(專利權)人: | 上海燧原科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 蔡舒野 |
| 地址: | 201306 上海市浦東新區中國(上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 量化 神經網絡 模型 執行 方法 裝置 設備 介質 | ||
1.一種量化神經網絡模型的片內執行方法,其特征在于,包括:
獲取與待加載至目標人工智能AI加速芯片中的量化神經網絡模型匹配的原始算子圖,其中,量化神經網絡模型通過對目標神經網絡模型進行后訓練量化得到;
根據目標AI加速芯片中的計算單元特征和/或指令集特征,對原始算子圖進行一次重構,得到第一算子圖;
在第一算子圖中的各計算節點中,識別第一量化敏感節點集合和第二量化敏感節點集合,并在第二量化敏感節點集合中確定設定數量的目標節點;其中,第一量化敏感節點的量化敏感度高于第二量化敏感節點;
在第一算子圖中,將第一量化敏感節點集合中的各計算節點替換為非量化節點,并將各目標節點使用分支網絡進行替換,其中,分支網絡中包括與所替換節點結構相同的多個分支節點,用于加權擬合所替換節點的計算結果;
根據目標AI加速芯片的存儲層級特征,對第一算子圖進行二次重構,得到第二算子圖;
對與第二算子圖對應的原始量化重構模型進行再訓練,得到目標量化重構模型,并將目標量化重構模型加載至目標AI加速芯片內進行執行。
2.根據權利要求1所述的方法,其特征在于,在第一算子圖中的各計算節點中,識別第一量化敏感節點集合和第二量化敏感節點集合,包括:
分別計算第一算子圖中的各計算節點對目標神經網絡模型的損失函數影響度;
識別損失函數影響度超過第一影響度閾值的第一量化敏感節點,形成第一量化敏感節點集合;
識別損失函數影響度大于或者等于第二影響度閾值,且小于第一影響度閾值的第二量化敏感節點,形成第二量化敏感節點集合,其中,第一影響度閾值大于第二影響度閾值。
3.根據權利要求2所述的方法,其特征在于,分別計算第一算子圖中的各計算節點對目標神經網絡模型的損失函數影響度,包括:
將測試輸入數據分別輸入至所述目標神經網絡模型以及所述量化神經網絡模型中;
獲取各計算節點在所述目標神經網絡模型以及所述量化神經網絡模型中的原始輸出特征圖以及量化輸出特征圖;
根據各所述原始輸出特征圖以及量化輸出特征圖,計算每個計算節點在量化前后的特征圖差異值作為損失函數影響度。
4.根據權利要求2所述的方法,其特征在于,分別計算第一算子圖中的各計算節點對目標神經網絡模型的損失函數影響度,包括:
在各所述計算節點中,依次獲取當前處理節點;
將測試輸入數據輸入至所述目標神經網絡模型中,并計算得到所述目標神經網絡模型針對所述測試輸入數據的第一損失函數值;
將所述目標神經網絡模型中,與所述當前處理節點對應的原始權重矩陣,替換為所述量化神經網絡模型中,與所述當前處理節點對應的量化權重矩陣;
重新將所述測試輸入數據輸入至所述目標神經網絡模型中,并計算得到所述目標神經網絡模型針對所述測試輸入數據的第二損失函數值;
計算所述第一損失函數值與所述第二損失函數值之間的損失差異值,并在確定所述損失差異值滿足損失差異門限條件時,將所述當前處理節點確定為量化敏感節點;
返回執行在各所述計算節點中,依次獲取當前處理節點的操作,直至完成對全部計算節點的處理。
5.根據權利要求1所述的方法,其特征在于,在將各目標節點使用分支網絡進行替換之前,還包括:
根據各目標節點的量化前后處理差異,確定與各所述目標節點分別對應的分支數量范圍;
根據各所述目標節點的分支數量范圍,以及目標AI加速芯片中的計算單元總數量,確定與各所述目標節點分別對應的分支數量,并按照各所述分支數量構建與各所述目標節點分別對應的分支網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海燧原科技有限公司,未經上海燧原科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211216879.4/1.html,轉載請聲明來源鉆瓜專利網。





