[發明專利]用于神經網絡的壓縮和推斷加速的非對稱量化在審
| 申請號: | 202010526606.4 | 申請日: | 2020-06-11 |
| 公開(公告)號: | CN112085154A | 公開(公告)日: | 2020-12-15 |
| 發明(設計)人: | 楊穎振;趙志彪;趙寶新;浣軍;歐陽劍;王勇;施佳鑫 | 申請(專利權)人: | 百度(美國)有限責任公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N5/04 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張潤 |
| 地址: | 美國加利福尼亞*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 神經網絡 壓縮 推斷 加速 對稱 量化 | ||
1.一種用于神經網絡的量化的計算機實現的方法,包括:
從用于所述神經網絡的層的權重值中識別極值權重值的集合,所述極值權重值的集合包括最大權重值和最小權重值;
使用所述極值權重值的集合和將用于以量化形式表示所述權重值的位的數量來獲得用于量化用于所述神經網絡的層的所述權重值的縮放因子;
使用所述極值權重值中的一個以及所述縮放因子以量化用于所述神經網絡的層的所述權重值;
使用所述縮放因子和來自被用于量化所述層的所述權重值的所述極值權重值的集合的極值來獲得用于所述層的偏移值,所述偏移值是整數值;以及
對于所述層,存儲所述縮放因子、所述偏移值及經量化的權重以在推斷期間使用,其中獲得用于所述層的輸出包括僅使用整數運算,以通過所述偏移值調整所述經量化的權重,以及將經調整的經量化的權重值與用于所述層的輸入值相乘。
2.如權利要求1所述的計算機實現的方法,還包括:
使用用于所述層的所述縮放因子、用于所述層的所述偏移值、用于所述層的所述經量化的權重和輸入值計算用于所述神經網絡的層的輸出,其中使用整數運算以通過所述偏移值調整所述經量化的權重,以及將所述經調整的經量化的權重值與所述輸入值相乘。
3.如權利要求1所述的計算機實現的方法,其中所述極值權重值是所述最大權重值,以及通過使用整數運算從所述偏移值減去所述經量化的值獲得經調整的經量化的權重值。
4.如權利要求1所述的計算機實現的方法,其中所述極值權重值是所述最小權重值,以及通過使用整數運算將所述經量化的值加到所述偏移值獲得經調整的經量化的權重值。
5.如權利要求1所述的計算機實現的方法,其中使用所述縮放因子和來自被用于量化用于所述層的所述權重值的所述極值權重值的集合的所述極值來獲得用于所述層的為整數值的偏移值的步驟包括:
通過以所述縮放因子除以來自所述極值權重值的集合的所述極值獲得商;以及
將所述商轉換為整數值。
6.如權利要求1所述的計算機實現的方法,還包括:
將權利要求1的方法用于所述神經網絡的兩個或更多個層中的每個層。
7.如權利要求6所述的計算機實現的方法,其中所述兩個或多個層中的至少多個層是連續層,以及所述方法還包括:
通過執行以下步驟計算用于所述神經網絡的所述連續層的輸出,所述步驟包括:
使用整數運算以:
針對所述連續層中的每個層,通過以所述層的所述偏移值調整所述層的所述經量化的權重值獲得用于所述層的經調整的經量化的權重值的集合;以及
將所述經調整的經量化的權重值的集合與用于所述連續層的第一層的輸入值相乘在一起以獲得中間乘積;以及
將用于所述連續層中的每個層的所述縮放因子與所述中間乘積相乘在一起以獲得用于所述連續層的所述輸出。
8.一種系統,包括:
一個或多個處理器;以及
非暫時性計算機可讀介質,包括一個或多個指令集,所述一個或多個指令集在由所述一個或多個處理器中的至少一個執行時,使得如權利要求1至7中任一項所述的方法的步驟被執行。
9.一種非暫時性計算機可讀介質,包括一個或多個指令序列,所述一個或多個指令序列在由一個或多個處理器執行時,使得如權利要求1至7中任一項所述方法的步驟被執行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度(美國)有限責任公司,未經百度(美國)有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010526606.4/1.html,轉載請聲明來源鉆瓜專利網。





