[發明專利]推理服務組件的運算方法和TensorRT推理服務組件在審
| 申請號: | 202210004322.8 | 申請日: | 2022-01-04 |
| 公開(公告)號: | CN114327958A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 徐守奎;陳舟鋒;王義鋒;沈炯行 | 申請(專利權)人: | 新華智云科技有限公司 |
| 主分類號: | G06F9/54 | 分類號: | G06F9/54;G06N5/04 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 田金霞 |
| 地址: | 310012 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 推理 服務 組件 運算 方法 tensorrt | ||
1.一種推理服務組件的運算方法,其特征在于,包括以下步驟:
構建一組以上第一運算對象,獲得第一運算隊列;
將推理服務模型連接每一所述第一運算對象;
連接所述第一運算對象和TensorRT對象接口,基于所述第一運算對象形成TensorRT對象隊列;
獲取待處理數據,從所述第一運算隊列調取第一運算對象;
將所述待處理數據遷移至顯存后,通過所述第一運算對象與所述TensorRT對象實現交互;
獲取推理輸出結果,將所述推理輸出結果遷移至內存輸出;
釋放所述第一運算對象至第一運算隊列。
2.根據權利要求1所述的一種推理服務組件的運算方法,其特征在于,所述推理服務模型的初始化流程,包括步驟:
序列化所述推理服務模型,保存輸入尺寸、輸入數據和輸出尺寸計算輸出的數據;
加載模型,解析所述推理服務模型;
分配內存和顯存,封裝并映射至第一運算對象加入所述第一運算隊列。
3.根據權利要求1所述的一種推理服務組件的運算方法,其特征在于,所述第一運算對象的調取和釋放的方法,包括步驟:
調取第一運算隊列中位于首位的第一運算對象;
執行推理服務,輸出推理輸出結果后釋放所述第一運算對象至第一運算隊列末位。
4.根據權利要求2所述的一種推理服務組件的運算方法,其特征在于,還包括推理服務模型的動態輸入方法:
通過接口層輸入待推理數據,所述待推理數據包括輸入尺寸;
根據所述待推理數據、輸入尺寸,以及所述輸入尺寸和所述輸出尺寸的映射關系計算推理輸出結果。
5.根據權利要求1所述的一種推理服務組件的運算方法,其特征在于,所述將所述待處理數據遷移至顯存的方法,具體包括:
獲取待推理數據,將所述待推理數據從內存拷貝至鎖頁內存,再從所述鎖頁內存拷貝至顯存;
所述將所述推理輸出結果遷移至內存輸出的方法,具體包括:
將所述推理輸出結果從顯存拷貝至鎖頁內存,再從所述鎖頁內存拷貝至內存輸出。
6.根據權利要求1所述的一種推理服務組件的運算方法,其特征在于,執行所述獲取推理輸出結果,將所述推理輸出結果遷移至內存輸出之后,還執行步驟:釋放GIL鎖。
7.一種TensorRT推理服務組件,其特征在于,包括:
接口層,用于待處理數據和推理結果數據與外部的交互;
推理層,包含第一運算隊列,所述第一運算隊列包括一組以上第一運算對象,每一所述第一運算對象有對應連接的TensorRT對象;每一所述第一運算對象包括預設的推理服務模型;
調度層,從所述接口層獲取待處理數據,從所述推理層獲取推理輸出結果;調取所述第一運算隊列的所述第一運算對象,根據所述第一運算對象執行推理服務;釋放所述第一運算對象至第一運算隊列。
8.根據權利要求1所述的一種TensorRT推理服務組件,其特征在于,還包括插件層,所述插件層連接所述推理層,所述插件層用于提供推理服務模型。
9.一種計算機存儲介質,其特征在于,存儲有計算機程序,所述計算機程序被執行實現權利要求1-6任一所述的推理服務組件的運算方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華智云科技有限公司,未經新華智云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210004322.8/1.html,轉載請聲明來源鉆瓜專利網。





