[發(fā)明專利]一種基于c++的人工智能加速卡推理服務設計方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202210012339.8 | 申請日: | 2022-01-06 |
| 公開(公告)號: | CN114443289A | 公開(公告)日: | 2022-05-06 |
| 發(fā)明(設計)人: | 姜玉哲;孫桂剛;李超 | 申請(專利權)人: | 浪潮軟件集團有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06T1/20 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 姜鵬 |
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 c++ 人工智能 加速卡 推理 服務 設計 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于c++的人工智能加速卡推理服務設計方法及系統(tǒng),屬于人工智能加速卡領域;所述的本發(fā)明方法具體步驟如下:S1客戶端將圖片預處理為適合加速卡處理的數據類型;S2服務端將數據傳遞給加速卡進行推理;S3服務端通過json配置管理和加載模型文件;S4服務端將數據返回客戶端,通過定義callback使不同的模型注冊相應的后處理操作;不同模型經過加速卡的推理之后得到的數據格式一般不會相同,所以最后需要對數據進行后處理,以得到期望的結果,當存在不同類型的加速卡和模型時,能夠以最小的工作量來完成相關的部署同時保證其工作效率。
技術領域
本發(fā)明公開一種基于c++的人工智能加速卡推理服務設計方法及系統(tǒng),涉及人工智能加速卡技術領域。
背景技術
當前人工智能的相關業(yè)務和技術發(fā)展迅猛,國內也出現(xiàn)了很多做人工智能加速卡的公司。他們通過量化,硬件設計等技術來加速處理矩陣運算的速度,從而在運行特定模型時,會取得比GPU更好的運行效率和速度。不同廠商在設計自己的api時會暴露出不同的接口,這就大大增加了適配的難度,如何在降低工作量的同時保證運行效率成為一個重要問題。雖然接口可能存在差異,但其處理數據的過程存在一定的共性。
隨著人工智能芯片的發(fā)展,當前出現(xiàn)了很多人工智能加速卡,用來代替GPU進行推理服務。目前市面上的加速卡,其推理效率和利用率要比GPU高,但是也存在其自身的局限性。
故現(xiàn)發(fā)明一種基于c++的人工智能加速卡推理服務設計方法及系統(tǒng),以解決上述問題。
發(fā)明內容
本發(fā)明針對現(xiàn)有技術的問題,提供一種基于c++的人工智能加速卡推理服務設計方法及系統(tǒng),所采用的技術方案為:一種基于c++的人工智能加速卡推理服務設計方法,所述的方法具體步驟如下:
S1客戶端將圖片預處理為適合加速卡處理的數據類型;
S2服務端將數據傳遞給加速卡進行推理;
S3服務端通過json配置管理和加載模型文件;
S4服務端將數據返回客戶端,通過定義callback使不同的模型注冊相應的后處理操作。
所述S1客戶端將圖片預處理為適合加速卡處理的數據類型的具體步驟如下:
S101客戶端對圖片的數據類型進行轉換;
S102將處理后的數據利用tcp連接進行傳輸;
S103利用線程池并行處理數據,將處理結果拼接后發(fā)送到服務端。
所述S2服務端將數據傳遞給加速卡進行推理的具體步驟如下:
S201客戶端將預處理數據發(fā)送給服務端的數據接收隊列;
S202服務端的數據發(fā)送線程將數據拷貝到加速卡;
S203數據處理線程調用api使加速卡處理相關數據;
S204數據接收線程從加速卡拷貝數據到主機,將處理后的數據發(fā)送回客戶端。
所述S3服務端通過json配置管理和加載模型文件的具體步驟如下:
S301獲取本地存儲離線模型信息;
S302將用戶端請求的網絡模型加載到內存中;
S303將客戶端預處理后的數據傳遞給加速卡并處理相應數據,給板卡提供數據;
S304服務端接受調用揮手接口的請求,釋放相應資源。
一種基于c++的人工智能加速卡推理服務設計系統(tǒng),所述的系統(tǒng)具體包括預處理模塊、數據推理模塊、配置交互模塊和后處理模塊:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮軟件集團有限公司,未經浪潮軟件集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210012339.8/2.html,轉載請聲明來源鉆瓜專利網。





