[發明專利]基于Transformer模型的INT8離線量化及整數推斷方法有效
| 申請號: | 202110232726.8 | 申請日: | 2021-03-03 |
| 公開(公告)號: | CN113011571B | 公開(公告)日: | 2022-09-20 |
| 發明(設計)人: | 姜小波;鄧晗珂;何昆;方忠洪 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06N3/063 | 分類號: | G06N3/063;G06N3/04;G06F7/483 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 霍健蘭;梁瑩 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 transformer 模型 int8 離線 量化 整數 推斷 方法 | ||
本發明提供了一種基于Transformer模型的INT8離線量化及整數推斷方法,包括如下步驟:將原始Transformer浮點模型中歸一化層的L2范數轉換成L1范數;進行模型訓練;通過少量數據進行前向推斷,獲取各層矩陣運算的輸入數據的量化系數,提取為一般浮點數據;獲取浮點模型中各線性層的權重量化系數,提取為一般浮點數據,根據計算均方誤差的方法確定各層中的最優權重量化系數;將推斷過程中涉及量化操作的量化系數化為2?n的浮點數形式,通過聯合系數調整的方法來調整量化系數;基于調整后的量化系數結合L1范數的歸一化層得到INT8的整數推斷模型。本發明可減少模型計算所需硬件資源和模型量化帶來的誤差,降低硬件資源消耗和提高模型的推斷速度。
技術領域
本發明涉及自然語言處理技術領域,更具體地說,涉及一種基于Transformer模型的自然語言處理神經網絡模型的INT8(8位整型)離線量化方法及整數推斷方法。
背景技術
隨著深度學習算法的出現,人工智能迎來了第三次爆發,而深度學習算法的參數量和計算復雜性的增長對硬件提出了更高的性能要求,設計深度學習領域的專用硬件加速器是解決這一需要的有效辦法。如何減少深度神經網絡計算的延遲和存儲是神經網絡算法落地和神經網絡加速器設計的重要研究方向。
模型量化是解決上述問題的理想技術方法。一般情況下,自然語言處理模型的訓練和推斷階段使用的都是單精度浮點數類型完成,但是浮點數計算會占用大量的計算資源和存儲資源,執行速度也很慢。使用低比特的數據格式,計算邏輯相對簡單,可以提高計算效率的同時降低功耗和資源消耗。與單精度浮點數計算相比,采用INT8運算最多可以節省30倍的計算能耗和116倍的芯片面積。因此,模型量化廣泛應用于深度神經網絡的壓縮和加速。離線量化不需要進行反向傳播,直接將訓練好的模型進行量化,可以減少深度學習模型的部署時間。
Transformer模型作為自然語言處理領域新的通用模型,在各方面表現全面超越LSTM等傳統神經網絡所付出的代價是模型復雜度和網絡參數量的倍增,導致對計算能力和功耗的需求的急劇提高,使得它們難以在邊緣設備中運行。將現有的卷積神經網絡的INT8離線量化方法直接使用到Transformer模型會帶來精度損失。為了減少INT8量化帶來的精度損失和提高邊緣加速器的推斷效率,急需一種針對Transformer浮點模型進行優化INT8離線量化及整數推斷方法。
發明內容
為克服現有技術中的缺點與不足,本發明的目的在于提供一種基于Transformer模型的INT8離線量化及整數推斷方法;該方法可減少模型計算所需硬件資源和模型量化帶來的誤差,為硬件加速器的設計提供數據量化和量化模型推斷的技術方案。
為了達到上述目的,本發明通過下述技術方案予以實現:一種基于Transformer模型的INT8離線量化及整數推斷方法,包括如下步驟:
S1,將原始Transformer浮點模型中歸一化層的L2范數轉換成L1范數;之后對Transformer浮點模型進行模型訓練,獲取訓練后的浮點模型及其參數;
S2,通過少量數據進行前向推斷,獲取浮點模型中各層矩陣運算的輸入數據的量化系數Sinput,提取為一般浮點數據;
S3,根據訓練完的浮點模型,獲取浮點模型中各線性層的權重量化系數,提取為一般浮點數據,根據計算均方誤差的方法確定各線性層中的權重數據的最佳量化系數Sw;
S4,將推斷過程中涉及量化操作的量化系數化為2-n的浮點數形式,通過聯合系數調整的方法來調整量化系數;
S5,基于調整后的量化系數結合L1范數的歸一化層得到INT8的整數推斷模型。
進一步地,所述步驟S1中,根據以下公式進行歸一化層的計算:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110232726.8/2.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





