[發明專利]基于資源調整的深度學習模型動態批處理調度方法和系統在審
| 申請號: | 202111543693.5 | 申請日: | 2021-12-16 |
| 公開(公告)號: | CN114217966A | 公開(公告)日: | 2022-03-22 |
| 發明(設計)人: | 陳偉睿;蔣昌龍;馮奕樂;王子龍;張政;丁曉偉 | 申請(專利權)人: | 上海體素信息科技有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F9/48;G06F9/54;G06N3/08;G06N5/04 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 李源 |
| 地址: | 201100 上海市閔*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 資源 調整 深度 學習 模型 動態 批處理 調度 方法 系統 | ||
本發明提供了一種基于資源調整的深度學習模型動態批處理調度方法和系統,包括:步驟1:將深度學習推理作業按運行時消耗評估資源的種類進行任務拆分;步驟2:根據深度學習推理作業的資源種類和當前部署環境資源情況進行任務動態批處理,當滿足預設停止調度條件時停止調度,當接收到新推理作業,或在可用資源發生變化時,觸發新的調度。本發明通過不同運行時期運行調度當時的部署資源情況,得出此時某個推理任務的批處理推理批量大小并調度執行,可以有效的根據實時部署資源,動態調整批處理批量,利用批處理對運行效率的提升并達到對部署資源的實時充分利用,從而提升資源動態變化場景下的推理作業處理的吞吐量。
技術領域
本發明涉及深度學習模型的調度和推理部署技術領域,具體地,涉及一種基于資源調整的深度學習模型動態批處理調度方法和系統。
背景技術
隨著計算機硬件的提升與深度學習領域的快速發展,各種神經網絡模型被應用與生命健康,零售,工業等各個領域。深度學習模型的成功應用于商業領域依賴于多個環節,除了模型訓練之外,通常還需要將訓練好的模型針對使用場景進行優化和部署。用戶向部署好的模型傳入數據,在輸入數據經過模型推理運算后,用戶得到對應的輸出結果。
為優化模型推理過程,各種方便于工業部署的模型推理引擎也陸續被開發出來。如NVidia公司推出了針對NVidia GPU進行優化的模型推理引擎triton,Intel公司推出的針對Intel硬件拓展的卷積神經網絡模型推理引擎OpenVINO等。各個深度學習框架如tensorflow,porch,mxnet等也都推出了適用于自身框架模型或通用模型的推理部署工具。部分引擎及推理部署工具支持在單一GPU中預加載多個推理模型,在接收模型推理請求后,可以按照指定的批處理大小和隊列等待時間來對推理請求進行合并做批量推理。由于GPU架構特征和并行化指令執行上的優勢,在GPU上以批處理的形式運行多個模型推理任務通常會將請求數據以批量形式輸入某個模型中,以執行時按批量大小倍增的顯存消耗為代價,增加推理的吞吐量。
但在現有醫療影像推理場景下,一個深度學習相關作業由多個包含復雜依賴關系的大規模深度模型推理任務共同完成,包含前處理,模型推理以及后處理等多個步驟,顯存占用大小與依賴關系復雜。而在醫院等醫療使用場景中,推理部署環境硬件網絡資源通常固定而深度學習相關作業種類在不斷升級增加。而像GPU顯存有限并難以擴容,使得批量推理作業的執行受顯存制約,難以保證所有模型都可以在預設批量大小下同時運行,推理吞吐量不高。而如果關閉批處理,則在運行某些深度學習相關作業時,不能充分利用已加載模型和剩余的顯存資源。此外,該場景下某一時間接收到的深度學習推理作業在數量和種類上都具有不確定性。采用一種合理的動態批處理策略才能使得該環境下的深度學習作業批處理運行效率得到提升。
CN111523670中采用的批處理方案主要針對單個推理任務的多次推理任務請求,方案提出了請求合并進行批處理的方法,但是針對多個推理任務模型部署時的批處理批量大小不會根據環境資源情況變化,為滿足多個推理模型部署情況時,通常運行環境資源大小需要滿足所有模型對應預定批量大小推理時所需資源才能進行有效推理,對環境資源要求相比本專利更為苛刻。
CN112860402中提供了一種批處理動態調整方法,該批量調節方法根據歷史吞吐情況,概率分布,對批處理量大小進行不斷迭代調節。本發明對批處理的動態調整方案充分利用當前資源環境限制以及隊列內的實時任務狀態等信息,在有資源限制或資源動態變化以及任務量大或應對任務量突發變化的場景下更為靈活且具有現實意義。
專利文獻CN112860402A(申請號:CN202110192645.X)公開了一種深度學習推理服務的動態批處理任務調度方法及系統,方法包括:以二維馬爾可夫過程描述每個批次離開時刻的隊列等任務數和離開批次的大小,確定所述二維馬爾可夫過程的穩態概率,根據所述穩態概率確定深度學習推理服務系統中的平均服務延遲;構建優化模型來優化批處理任務大小的上限與所述平均服務延遲和內存使用量,求解優化模型確定批處理任務的批次大小上限。該專利雖然可以動態調整批處理的批量大小,但其動態調整的方式是基于隊列歷史變化信息,而非當前環境資源信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海體素信息科技有限公司,未經上海體素信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111543693.5/2.html,轉載請聲明來源鉆瓜專利網。





