[發(fā)明專(zhuān)利]模型壓縮方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202011247207.0 | 申請(qǐng)日: | 2020-11-10 |
| 公開(kāi)(公告)號(hào): | CN112529189A | 公開(kāi)(公告)日: | 2021-03-19 |
| 發(fā)明(設(shè)計(jì))人: | 王桂彬;董昊 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類(lèi)號(hào): | G06N5/04 | 分類(lèi)號(hào): | G06N5/04;G06N3/063;G06F17/16 |
| 代理公司: | 北京鴻德海業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 11412 | 代理人: | 谷春靜 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 模型 壓縮 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種模型壓縮方法,包括:
當(dāng)模型推理過(guò)程中需要進(jìn)行單精度浮點(diǎn)的矩陣運(yùn)算時(shí),對(duì)相乘的兩個(gè)矩陣中的左矩陣按行進(jìn)行量化,得到第一量化矩陣,對(duì)相乘的兩個(gè)矩陣中的右矩陣按列進(jìn)行量化,得到第二量化矩陣;
將所述第一量化矩陣和所述第二量化矩陣相乘,得到作為定點(diǎn)運(yùn)算結(jié)果的第三矩陣;
根據(jù)所述第三矩陣進(jìn)行反量化,得到第四矩陣,將所述第四矩陣作為所述矩陣運(yùn)算的結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其中,
所述對(duì)相乘的兩個(gè)矩陣中的左矩陣按行進(jìn)行量化包括:分別確定出所述左矩陣中的每行元素對(duì)應(yīng)的基準(zhǔn)值;針對(duì)所述左矩陣中的每個(gè)元素,分別根據(jù)所述元素所在行對(duì)應(yīng)的基準(zhǔn)值及預(yù)定的位寬確定出所述元素的量化值;
所述對(duì)相乘的兩個(gè)矩陣中的右矩陣按列進(jìn)行量化包括:分別確定出所述右矩陣中的每列元素對(duì)應(yīng)的基準(zhǔn)值;針對(duì)所述右矩陣中的每個(gè)元素,分別根據(jù)所述元素所在列對(duì)應(yīng)的基準(zhǔn)值及預(yù)定的位寬確定出所述元素的量化值。
3.根據(jù)權(quán)利要求2所述的方法,其中,
所述分別確定出所述左矩陣中的每行元素對(duì)應(yīng)的基準(zhǔn)值包括:針對(duì)所述左矩陣中的每行元素,分別將其中包括的各元素的取值的絕對(duì)值中的最大值作為所述基準(zhǔn)值;
所述分別確定出所述右矩陣中的每行元素對(duì)應(yīng)的基準(zhǔn)值包括:針對(duì)所述右矩陣中的每列元素,分別將其中包括的各元素的取值的絕對(duì)值中的最大值作為所述基準(zhǔn)值。
4.根據(jù)權(quán)利要求2所述的方法,其中,
所述針對(duì)所述左矩陣中的每個(gè)元素,分別根據(jù)所述元素所在行對(duì)應(yīng)的基準(zhǔn)值及預(yù)定的位寬確定出所述元素的量化值包括:計(jì)算所述元素的取值與所述元素所在行對(duì)應(yīng)的基準(zhǔn)值的商,并計(jì)算所述商與2B-1的乘積,B表示所述位寬,將所述乘積作為所述元素的量化值;
所述針對(duì)所述右矩陣中的每個(gè)元素,分別根據(jù)所述元素所在列對(duì)應(yīng)的基準(zhǔn)值及預(yù)定的位寬確定出所述元素的量化值包括:計(jì)算所述元素的取值與所述元素所在列對(duì)應(yīng)的基準(zhǔn)值的商,并計(jì)算所述商與所述2B-1的乘積,將所述乘積作為所述元素的量化值。
5.根據(jù)權(quán)利要求2所述的方法,其中,所述根據(jù)所述第三矩陣進(jìn)行反量化,得到第四矩陣包括:
針對(duì)所述第四矩陣中的每個(gè)元素,分別進(jìn)行以下處理:計(jì)算所述元素在所述第三矩陣中的對(duì)應(yīng)元素的取值、所述元素所在行對(duì)應(yīng)的基準(zhǔn)值以及所述元素所在列對(duì)應(yīng)的基準(zhǔn)值的乘積,將所述乘積作為所述元素的取值,所述對(duì)應(yīng)元素為處于相同位置的元素。
6.根據(jù)權(quán)利要求1所述的方法,還包括:
按照單精度訓(xùn)練方式訓(xùn)練得到單精度模型,作為初始模型;
對(duì)所述初始模型的模型參數(shù)進(jìn)行量化精調(diào)訓(xùn)練,得到最終的模型。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述左矩陣為權(quán)重矩陣;
所述對(duì)所述初始模型的模型參數(shù)進(jìn)行量化精調(diào)訓(xùn)練包括:
針對(duì)所述模型參數(shù),執(zhí)行以下第一處理:
對(duì)所述模型參數(shù)中的所述權(quán)重矩陣按行進(jìn)行量化,并對(duì)量化結(jié)果進(jìn)行反量化,得到處理后的模型參數(shù);
根據(jù)所述處理后的模型參數(shù)進(jìn)行前向計(jì)算和反向計(jì)算,得到模型參數(shù)梯度;
根據(jù)所述模型參數(shù)梯度更新所述模型參數(shù),并針對(duì)更新后的模型參數(shù),重復(fù)執(zhí)行所述第一處理,直到符合預(yù)定結(jié)束條件。
8.一種模型壓縮裝置,包括:量化模塊、運(yùn)算模塊以及反量化模塊;
所述量化模塊,用于當(dāng)模型推理過(guò)程中需要進(jìn)行單精度浮點(diǎn)的矩陣運(yùn)算時(shí),對(duì)相乘的兩個(gè)矩陣中的左矩陣按行進(jìn)行量化,得到第一量化矩陣,對(duì)相乘的兩個(gè)矩陣中的右矩陣按列進(jìn)行量化,得到第二量化矩陣;
所述運(yùn)算模塊,用于將所述第一量化矩陣和所述第二量化矩陣相乘,得到作為定點(diǎn)運(yùn)算結(jié)果的第三矩陣;
所述反量化模塊,用于根據(jù)所述第三矩陣進(jìn)行反量化,得到第四矩陣,將所述第四矩陣作為所述矩陣運(yùn)算的結(jié)果。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011247207.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





