[發(fā)明專利]深度學(xué)習(xí)模型的調(diào)優(yōu)方法和計算裝置在審
| 申請?zhí)枺?/td> | 202010067045.6 | 申請日: | 2020-01-20 |
| 公開(公告)號: | CN113139650A | 公開(公告)日: | 2021-07-20 |
| 發(fā)明(設(shè)計)人: | 趙曉輝;李書森 | 申請(專利權(quán))人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 北京成創(chuàng)同維知識產(chǎn)權(quán)代理有限公司 11449 | 代理人: | 劉靜 |
| 地址: | 英屬開曼群島大*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 深度 學(xué)習(xí) 模型 方法 計算 裝置 | ||
公開了一種計算裝置,包括存儲器、調(diào)度單元和加速單元,其中,加速單元用于執(zhí)行每個量化模型,存儲器存儲指令,調(diào)度單元讀取指令,以執(zhí)行:為深度學(xué)習(xí)模型創(chuàng)建多個配置組合,每個配置組合指定多個量化配置參數(shù)的一個取值組合;基于每個配置組合,對深度學(xué)習(xí)模型進(jìn)行量化操作,以得到多個量化操作后的模型;將多個量化操作后的模型依次部署到加速單元,并從加速單元接收多個量化操作后的模型各自對應(yīng)的精度數(shù)據(jù);基于多個量化操作后的模型各自的精度數(shù)據(jù),獲得精度損失滿足設(shè)定條件的優(yōu)選模型。本公開實施例利用神經(jīng)網(wǎng)絡(luò)加速單元和調(diào)度單元的相互配合,實現(xiàn)較快地獲取到精度損失較小的優(yōu)選模型。
技術(shù)領(lǐng)域
本公開涉及神經(jīng)網(wǎng)絡(luò)領(lǐng)域,具體而言,涉及深度學(xué)習(xí)模型的調(diào)優(yōu)方法和計算裝置。
背景技術(shù)
在神經(jīng)網(wǎng)絡(luò)領(lǐng)域,推理(Inference)是指將一個預(yù)先訓(xùn)練好的深度學(xué)習(xí)模型推送到實際業(yè)務(wù)場景中使用。由于推理直接面向用戶,因此推理性能至關(guān)重要,尤其對于企業(yè)級產(chǎn)品而言更是如此。
關(guān)于推理性能,除了硬件層面的優(yōu)化,在算法層面,模型量化(Quantized Model)是提升推理性能的重要手段之一。目前模型量化的方法有很多,其中將模型從32位單精度浮點數(shù)(FP32)模型轉(zhuǎn)化為8位整型數(shù)據(jù)(INT8)模型是其中之一的方法。通常我們在構(gòu)建深度學(xué)習(xí)模型時使用的都是32位單精度浮點數(shù),模型規(guī)模較大的時候,對數(shù)據(jù)吞吐量和存儲空間的要求很高。因此將模型從32位單精度浮點數(shù)轉(zhuǎn)化為8位整型數(shù)據(jù),有助于降低對數(shù)據(jù)吞吐量和存儲空間的要求。
但是將模型從FP32模型轉(zhuǎn)化到INT8模型會產(chǎn)生數(shù)據(jù)精度的損失,因此如何在量化時最小化精度損失是一個關(guān)鍵問題。
發(fā)明內(nèi)容
基于此,本公開的目的是提供一種深度學(xué)習(xí)模型的調(diào)優(yōu)方法和計算裝置,以解決現(xiàn)有技術(shù)中存在的問題。
本公開實施例提供一種計算裝置,包括存儲器、調(diào)度單元和加速單元,其中,所述加速單元用于執(zhí)行每個量化操作后的模型,所述存儲器存儲指令,所述調(diào)度單元讀取所述指令,以執(zhí)行:
為深度學(xué)習(xí)模型創(chuàng)建多個配置組合,每個配置組合指定多個量化配置參數(shù)的一個取值組合;
基于每個配置組合,對所述深度學(xué)習(xí)模型進(jìn)行量化操作,以得到多個量化操作后的模型;
將所述多個量化操作后的模型依次部署到所述加速單元,并從所述加速單元接收所述多個量化操作后的模型各自對應(yīng)的精度數(shù)據(jù);
基于所述多個量化操作后的模型各自的精度數(shù)據(jù),獲得精度損失滿足設(shè)定條件的優(yōu)選模型。
可選地,所述調(diào)度單元將所述量化操作后的模型依次部署到所述神經(jīng)網(wǎng)絡(luò)加速單元包括:
所述調(diào)度單元從所述存儲器上獲取所述量化操作后的模型對應(yīng)的待執(zhí)行指令,并發(fā)送所述加速單元。
可選地,所述調(diào)度單元將所述量化操作后的模型依次部署到所述神經(jīng)網(wǎng)絡(luò)加速單元包括:
所述調(diào)度單元將所述量化操作后的模型對應(yīng)的待執(zhí)行指令在所述存儲器上的存儲位置發(fā)送所述加速單元,所述加速單元從所述存儲位置獲取所述待執(zhí)行指令。
可選地,還包括:所述加速單元從所述存儲器獲取所述量化操作后的模型所需的數(shù)據(jù)。
可選地,所述量化操作后的模型所需的數(shù)據(jù)包括:權(quán)重參數(shù)和/或輸入數(shù)據(jù)。
可選地,在所述將所述多個量化操作后的模型依次部署到所述加速單元的步驟之前,所述調(diào)度單元還執(zhí)行:將所述多個量化操作后的模型對應(yīng)的待執(zhí)行指令轉(zhuǎn)換為所述加速單元能夠識別的待執(zhí)行指令。
可選地,所述將所述多個量化操作后的模型依次部署到所述加速單元包括:
對于每個量化操作后的模型,根據(jù)其精度數(shù)據(jù)判斷其精度下降是否超過下降門限;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010067045.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





