[發明專利]基于Transformer模型的INT8離線量化及整數推斷方法有效
| 申請號: | 202110232726.8 | 申請日: | 2021-03-03 |
| 公開(公告)號: | CN113011571B | 公開(公告)日: | 2022-09-20 |
| 發明(設計)人: | 姜小波;鄧晗珂;何昆;方忠洪 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06N3/063 | 分類號: | G06N3/063;G06N3/04;G06F7/483 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 霍健蘭;梁瑩 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 transformer 模型 int8 離線 量化 整數 推斷 方法 | ||
1.一種基于Transformer模型的INT8離線量化及整數推斷方法,包括如下步驟:
S1,將原始Transformer浮點模型中歸一化層的L2范數轉換成L1范數;之后對Transformer浮點模型進行模型訓練,獲取訓練后的浮點模型及其參數;
S2,通過少量數據進行前向推斷,獲取浮點模型中各層矩陣運算的輸入數據的量化系數Sinput,提取為一般浮點數據;
S3,根據訓練完的浮點模型,獲取浮點模型中各線性層的權重量化系數,提取為一般浮點數據,根據計算均方誤差的方法確定各線性層中的權重數據的最佳量化系數Sw;
S4,將推斷過程中涉及量化操作的量化系數化為2-n的浮點數形式,通過聯合系數調整的方法來調整量化系數;
S5,基于調整后的量化系數結合L1范數的歸一化層得到INT8的整數推斷模型;
所述步驟S4包括以下分步驟:
S41,提取步驟S2和S3得到的量化系數Sinput和Sw;
S42,將推斷過程中的涉及量化操作的量化系數化為2-n的浮點數形式,通過移位完成數據傳遞過程中的量化系數傳遞,確保每一層矩陣運算在整數域進行;
S43,對量化系數進行聯合調整,通過對自注意力層和前饋神經網絡計算層內部的權重數據進行縮放來完成量化系數的聯合調整,以減少將量化系數化為2-n的浮點數形式帶來的計算誤差;
所述自注意力層包括兩部分;自注意力層的第一部分包含查詢向量的線性層計算、鍵向量的線性層計算和兩個線性層結果的點積計算;通過對查詢向量的線性層計算和鍵向量的線性層計算進行同等比例但是反向的縮放:
γk`=γWkk+γbk
k`=γk`
其中,q表示查詢向量,k表示鍵向量,q`表示查詢向量線性層的輸出,k`表示鍵向量線性層的輸出,Wq表示查詢向量線性層的權重,Wk表示鍵向量線性層的權重,bq表示查詢向量線性層的偏置,bk表示鍵向量線性層的偏置,γ表示縮放系數;縮放系數γ通過公式中的權重和偏置進行調整,縮放系數γ的值決定于量化帶來的計算誤差最小。
2.根據權利要求1所述的基于Transformer模型的INT8離線量化及整數推斷方法,其特征在于:所述步驟S1中,根據以下公式進行歸一化層的計算:
其中,x是輸入數據,μ表示輸入數據所在行的平均值,α和β是浮點模型中的可訓練參數,n代表的是行的大小,
3.根據權利要求1所述的基于Transformer模型的INT8離線量化及整數推斷方法,其特征在于:所述步驟S2包括以下分步驟:
S21,選取一批浮點模型輸入數據;
S22,采用選取的浮點模型輸入數據,使用訓練后的浮點模型進行前向推斷,獲取浮點模型中各層矩陣運算的輸入數據的分布;
S23,根據獲取的浮點模型中各層矩陣運算的輸入數據的分布,對所求得的量化系數進行平均,得到每一層矩陣運算輸入數據的量化系數,提取為一般浮點數據,記為Sinput,使每個矩陣運算都有一個量化系數Sinput:
其中,n代表浮點模型輸入數據的大小,xi代表第i個浮點模型輸入數據計算的所求矩陣的輸入數據,max表示取矩陣的最大值,abs表示取矩陣的絕對值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110232726.8/1.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





