[發明專利]模型推理的資源分配方法、裝置、計算機設備和存儲介質有效
| 申請號: | 202010062893.8 | 申請日: | 2020-01-19 |
| 公開(公告)號: | CN111274034B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 陳可;董峰 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 張麗穎;李雪 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 推理 資源 分配 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種模型推理的資源分配方法、裝置、計算機設備和存儲介質。所述方法包括:獲取加速板卡的數量,各個加速板卡上搭載有多個加速芯片;獲取待分配深度模型和待分配深度模型的各個計算層的時間開銷;根據各個計算層的時間開銷,確定待分配深度模型拆分成多個目標子模型的模型拆分策略,每個加速板卡對應一個目標子模型;根據各個計算層的時間開銷,確定各個加速板卡的目標子模型拆分成與對應的各個加速板卡上的芯片相同數量的目標子單元的子模型拆分策略,每個加速芯片對應一個目標子單元。按照時間開銷對自動拆解模型,按照拆解后的模型部署模型,采用部署的模型進行模型推理,可以加快模型的推理速度。
技術領域
本申請涉及計算機技術領域,尤其涉及一種模型推理的資源分配方法、裝置、計算機設備和存儲介質。
背景技術
當前傳統GPU是主流的深度學習推理平臺,但其存在高成本及高功耗等缺點,AI專用硬件加速芯片的出現一定程度上彌補了不足,在很多應用場合顯示了巨大的競爭優勢。
目前主流的AI專用推理芯片(如Intel的Movidius?Myriad?X系列VPU等)由于目標應用場景定位及自身架構等原因,存在支持模型尺寸受限的問題。通常服務器端會部署多張加速板卡,每張加速板卡包含多個加速芯片,以支持大規模AI模型推理。
因此部署大規模AI模型時對需要原模型進行拆分并分配至各加速板卡/芯片資源。由于大規模AI模型計算層數繁多(至少1000層以上),如何分配到各計算資源、以及如何合并計算結果都需要準確考量。如果模型拆分不當或者算力分配不均,將導致整體模型加速效果不佳,甚至模型加載失敗的問題。
發明內容
為了解決上述技術問題,本申請提供了一種模型推理的資源分配方法、裝置、計算機設備和存儲介質。
第一方面,本申請提供了一種模型推理的資源分配方法,包括:
獲取加速板卡的數量,各個加速板卡上搭載有多個加速芯片;
獲取待分配深度模型和待分配深度模型的各個計算層的時間開銷;
根據各個計算層的時間開銷,確定待分配深度模型拆分成多個目標子模型的模型拆分策略,每個加速板卡對應一個目標子模型,每個目標子模型的時間開銷位于第一預設開銷區間內;
根據各個計算層的時間開銷,確定各個加速板卡的目標子模型拆分成與對應的各個加速板卡上的芯片相同數量的目標子單元的子模型拆分策略,每個加速芯片對應一個目標子單元,每個目標子單元的時間開銷位于第二預設開銷區間內。
第二方面,本申請提供了一種模型推理的資源分配裝置,包括:
數據獲取模塊,用于獲取加速板卡的數量,各個加速板卡上搭載有多個加速芯片,獲取待分配深度模型和待分配深度模型的各個計算層的時間開銷;
板卡分配模塊,根據各個計算層的時間開銷,確定待分配深度模型拆分成多個目標子模型的模型拆分策略,每個加速板卡對應一個目標子模型,每個目標子模型的時間開銷位于第一預設開銷區間內;
芯片分配模塊,用于根據各個計算層的時間開銷,確定各個加速板卡的目標子模型拆分成與對應的各個加速板卡上的芯片相同數量的目標子單元的子模型拆分策略,每個加速芯片對應一個目標子單元,每個目標子單元的時間開銷位于第二預設開銷區間內。
一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現以下步驟:
獲取加速板卡的數量,各個加速板卡上搭載有多個加速芯片;
獲取待分配深度模型和待分配深度模型的各個計算層的時間開銷;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010062893.8/2.html,轉載請聲明來源鉆瓜專利網。





