[發明專利]模型推理的資源分配方法、裝置、計算機設備和存儲介質有效
| 申請號: | 202010062893.8 | 申請日: | 2020-01-19 |
| 公開(公告)號: | CN111274034B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 陳可;董峰 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 張麗穎;李雪 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 推理 資源 分配 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種模型推理的資源分配方法,其特征在于,所述方法包括:
獲取加速板卡的數量,各個所述加速板卡上搭載有多個加速芯片;
獲取待分配深度模型和所述待分配深度模型的各個計算層的時間開銷;
根據各個所述計算層的時間開銷,確定所述待分配深度模型拆分成多個目標子模型的模型拆分策略,每個所述加速板卡對應一個所述目標子模型,每個所述目標子模型的時間開銷位于第一預設開銷區間內;
根據各個所述計算層的時間開銷,確定各個所述加速板卡的目標子模型拆分成與對應的各個所述加速板卡上的芯片相同數量的目標子單元的子模型拆分策略,每個所述加速芯片對應一個所述目標子單元,每個所述目標子單元的時間開銷位于第二預設開銷區間內;
所述方法還包括:
獲取每個所述加速板卡的資源和對應的所述目標子模型的需求計算資源;
根據每個所述加速板卡的資源和對應的所述目標子模型的需求資源,確定各個所述目標子模型進行拆分和/或合并的模型調整策略,以使按照拆分和/或合并后得到的每個所述加速板卡的目標子模型的資源開銷小于或等于對應的所述加速板卡的資源上限。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
獲取每個所述加速板卡的傳輸開銷和對應的所述目標子模型的傳輸開銷;
根據每個所述加速板卡的傳輸開銷和對應的所述目標子模型的傳輸開銷,確定各個所述目標子模型進行拆分和/或合并的模型調整策略,以使執行拆分和/或合并后得到的每個所述加速板卡的目標子模型時所需的傳輸開銷小于或等于對應的所述加速板卡的預設傳輸開銷上限。
3.根據權利要求1或2所述的方法,其特征在于,所述方法還包括:
獲取每個所述加速板卡的資源和對應的所述目標子模型的需求資源;
根據每個所述加速板卡上的芯片的資源和對應的所述目標子單元的需求資源,確定對各個所述目標子單元進行拆分和/或合并的單元調整策略,以使拆分和/或合并后得到的每個所述加速板卡的芯片的目標子單元的資源小于或等于對應的所述加速板卡的芯片的資源上限。
4.根據權利要求3所述的方法,其特征在于,所述方法還包括:
獲取每個所述加速板卡的芯片的傳輸開銷和對應的所述目標子單元的傳輸開銷;
根據每個所述加速板卡的芯片的傳輸開銷和對應的所述目標子單元的傳輸開銷,確定各個所述目標子單元進行拆分和/或合并的單元調整策略,以使每個所述加速板卡的芯片的傳輸開銷小于或等于對應的所述目標子單元的傳輸開銷。
5.根據權利要求2所述的方法,其特征在于,所述模型調整策略,包括:
判斷當前板卡對應的模型的資源或傳輸開銷是否符合所述當前板卡的資源或傳輸開銷;
當所述當前板卡對應的模型的資源或傳輸開銷不符合所述當前板卡的資源或傳輸開銷時,將所述當前板卡對應的模型進行拆分,得到第一子模型和第二子模型,以使所述第一子模型符合所述當前板卡的資源或傳輸開銷;
合并所述第二子模型和所述當前板卡的相鄰的下一板卡的模型,得到合并模型;
將所述下一板卡作為所述當前板卡,判斷當前板卡對應的所述合并模型對應的資源或傳輸開銷是否符合所述當前板卡的資源或傳輸開銷。
6.根據權利要求5所述的方法,其特征在于,所述將所述當前板卡對應的模型進行拆分,得到第一子模型和第二子模型,包括:
對所述當前板卡對應的模型中的計算層,按照連接順序從位于末端的計算層進行拆分,將末端拆分出來的計算層作為所述第二子模型,剩余的計算層作為所述第一子模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010062893.8/1.html,轉載請聲明來源鉆瓜專利網。





