[發明專利]推理服務組件的運算方法和TensorRT推理服務組件在審
| 申請號: | 202210004322.8 | 申請日: | 2022-01-04 |
| 公開(公告)號: | CN114327958A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 徐守奎;陳舟鋒;王義鋒;沈炯行 | 申請(專利權)人: | 新華智云科技有限公司 |
| 主分類號: | G06F9/54 | 分類號: | G06F9/54;G06N5/04 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 田金霞 |
| 地址: | 310012 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 推理 服務 組件 運算 方法 tensorrt | ||
本發明披露了一種數據處理技術領域的推理服務組件的運算方法和TensorRT推理服務組件,具體包括:接口層,用于待處理數據和推理結果數據與外部的交互;推理層,包含第一運算隊列,所述第一運算隊列包括一組以上第一運算對象,每一所述第一運算對象有對應連接的TensorRT對象;每一所述第一運算對象包括預設的推理服務模型;調度層,從所述接口層獲取待處理數據,從所述推理層獲取推理輸出結果;調取所述第一運算隊列的所述第一運算對象,根據所述第一運算對象執行推理服務;釋放所述第一運算對象至第一運算隊列。插件層,所述插件層連接所述推理層,所述插件層用于提供推理服務模型。本技術方案使TensorRT調用更加靈活方便。
技術領域
本發明涉及數據處理技術領域,具體涉及基于TensorRT的推理服務組件和運算方法。
背景技術
目前存在基于tensorflow、pytorch等深度學習框架直接進行推理服務構建,或基于tensorflow-serving、onnx-runtime、torch-jit等官方推薦組件構建推理模塊,上述兩種方案在推理服務過程中有以下缺陷:第一個方案靈活性比較好,但普遍性能不高,并且大多基于python語言進行開發,優化空間有限。第二個方案,性能較第一種有很大的提高,但該組件靈活性不夠,使用方法須遵守組件要求,如:前后處理必須單獨實現,推理模塊的通信需要基于http、grpc協議通信;這在圖像場景下,網絡的延時對整體延時的影響大大增加,并且基于該組件進行改造的阻力也較大。
發明內容
本發明針對現有技術中的缺點,提供了一種靈活性更高的推理服務組件。
一種TensorRT推理服務組件,包括:
接口層,用于待處理數據和推理結果數據與外部的交互;
推理層,包含第一運算隊列,所述第一運算隊列包括一組以上第一運算對象,每一所述第一運算對象有對應連接的TensorRT對象;每一所述第一運算對象包括預設的推理服務模型;
調度層,從所述接口層獲取待處理數據,從所述推理層獲取推理輸出結果;調取所述第一運算隊列的所述第一運算對象,根據所述第一運算對象執行推理服務;釋放所述第一運算對象至第一運算隊列。
可選的,還包括插件層,所述插件層連接所述推理層,所述插件層用于提供推理服務模型。
本發明針對現有技術中的缺點,進一步提供了一種靈活性更高的推理服務運算方法,包括以下步驟:
構建一組以上第一運算對象,獲得第一運算隊列;
將推理服務模型連接每一所述第一運算對象;
連接所述第一運算對象和TensorRT對象接口,基于所述第一運算對象形成TensorRT對象隊列;
獲取待處理數據,從所述第一運算隊列調取第一運算對象;
將所述待處理數據遷移至顯存后,通過所述第一運算對象與所述TensorRT對象實現交互;
獲取推理輸出結果,將所述推理輸出結果遷移至內存輸出;
釋放所述第一運算對象至第一運算隊列。
具體的,所述推理服務模型的初始化流程,包括步驟:
序列化所述推理服務模型,保存輸入尺寸、輸入數據和輸出尺寸計算輸出的數據;
加載模型,解析所述推理服務模型;
分配內存和顯存,封裝并映射至第一運算對象加入所述第一運算隊列。
具體的,所述第一運算對象的調取和釋放的方法,包括步驟:
調取第一運算隊列中位于首位的第一運算對象;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華智云科技有限公司,未經新華智云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210004322.8/2.html,轉載請聲明來源鉆瓜專利網。





