[發明專利]一種深度學習模型推理期加速方法、裝置及系統有效
| 申請號: | 201810685004.6 | 申請日: | 2018-06-27 |
| 公開(公告)號: | CN109034371B | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 曹松;魏漢秦;林宇;陶海 | 申請(專利權)人: | 北京文安智能技術股份有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N5/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100094 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 深度 學習 模型 推理 加速 方法 裝置 系統 | ||
本發明涉及深度神經網絡學習技術領域,公開了一種深度學習模型推理期加速方法、裝置及系統。本發明深度學習模型推理期加速方法通過獲取優化深度學習模型及待處理數據;所述優化深度學習模型帶有優化合并參數;通過帶有所述優化合并參數的優化深度學習模型對所述待處理數據進行數據處理;將所述數據處理后的數據輸出。本發明通過帶有所述優化合并參數的優化深度學習模型對所述待處理數據進行數據處理;節省了深度學習模型推理期中的額外計算開銷,從而使得深度學習模型的應用過程中減少了推理期計算時間和響應延遲,降低了設備功耗。
技術領域
本發明涉及深度神經網絡學習技術領域,特別涉及一種深度學習模型推理期加速方法、裝置及系統。
背景技術
近年來,深度學習技術的突破極大地推動了計算機視覺領域的發展,傳統問題的精度不斷提高,漸近極限,新的應用領域也在不斷拓展。
圖形處理器(Graphics Processing Unit,簡稱GPU)是當前云端與嵌入式端深度學習計算的主流計算設備。“英偉達張量運行時”(NVIDIA TensorRT)是一種高性能神經網絡推理引擎,負責轉換、優化訓練好的模型,實現在NVIDIA GPU上加速執行,用于在生產環境中部署深度學習應用程序。在處理“批歸一化”計算時,TensorRT用尺度變換(scale)來實現。
在最新的神經網絡框架中(如PyTorch),更進一步的優化是,將卷積、批歸一化、非線性激活這些在訓練期被表達為單獨計算單元的計算核(kernel)合而為一,從而將訪存限制于片上,以減少推理期的片外訪存開銷。
英特爾(INTEL)的視覺處理器(Movidius Vision Processing Unit,簡稱VPU)是一種低功耗視覺處理芯片,被用來在邊緣計算領域加速深度學習計算。由該芯片廠商提供的神經網絡推理引擎“Movidius張量計算庫”(MvTensor)采用了與TensorRT相同的實現方案,即尺度變換(scale)。
然而,發明人發現,現有技術中至少存在以下問題:
現有技術在深度學習模型推理期保留有額外計算開銷,從而增加了計算時間、響應延遲和設備功耗。
發明內容
本發明的目的在于提供一種深度學習模型推理期加速方法、裝置及系統,使得深度學習模型的應用過程中可以減少推理期計算時間和響應延遲,降低設備功耗。
為解決上述技術問題,一方面,本發明的實施方式提供了一種深度學習模型推理期加速方法,包括:
獲取優化深度學習模型及待處理數據;所述優化深度學習模型帶有優化合并參數;
通過帶有所述優化合并參數的優化深度學習模型對所述待處理數據進行數據處理;
將所述數據處理后的數據輸出。
其中,該方法還包括:
獲取待優化的卷積神經網絡模型及其訓練數據;其中,所述待優化的卷積神經網絡模型帶有“批歸一化”結構;
通過所述訓練數據,對所述待優化的卷積神經網絡模型進行優化,獲取第一模型;
獲取所述第一模型中對應的卷積與“批歸一化”參數以及優化合并方式;
根據所述優化合并方式,合并所述第一模型中對應的卷積與“批歸一化”參數,并獲取所述優化深度學習模型。
其中,所述優化合并參數為優化卷積參數;所述優化卷積參數包括:優化卷積權重參數和優化卷積偏置參數
其中,所述優化合并方式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京文安智能技術股份有限公司,未經北京文安智能技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810685004.6/2.html,轉載請聲明來源鉆瓜專利網。





