[發明專利]深度學習分布式運算方法、裝置、計算機設備及存儲介質在審
| 申請號: | 201811080562.6 | 申請日: | 2018-09-17 |
| 公開(公告)號: | CN109358944A | 公開(公告)日: | 2019-02-19 |
| 發明(設計)人: | 蔣健;蘭毅;尹恒;邱杰;張宜浩 | 申請(專利權)人: | 深算科技(重慶)有限公司 |
| 主分類號: | G06F9/455 | 分類號: | G06F9/455;G06N99/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 401120 重慶市渝*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式運算 計算機設備 存儲介質 模型對象 哈希 調用 運算 圖像處理器 動態擴展 功能封裝 獲取請求 請求獲取 任務分發 運行環境 集群 學習 封裝 分發 行進 隔離 釋放 統一 | ||
本發明涉及深度學習分布式運算方法、裝置、計算機設備及存儲介質,該方法包括封裝模型,形成模型對象;確定運算數目;獲取請求;根據請求獲取哈希值;根據哈希值與模型對象進行任務分發;根據分發結果在Docker容器執行任務所對應的代碼;判斷任務所對應的代碼是否執行完畢;若是,則釋放Docker容器內的任務所對應的代碼。本發明通過在tensorflow的分布式運算框架的基礎上進行進一步的功能封裝,調用docker容器,并在docker容器內運行任務所對應的代碼,實現了運行環境統一與圖像處理器隔離,調用docker容器可進行運算集群的動態擴展,使提高深度學習模型的訓練速度。
技術領域
本發明涉及分布式運算方法,更具體地說是指深度學習分布式運算方法、裝置、計算機設備及存儲介質。
背景技術
近些年來,深度學習與分布式計算在機器學習領域是備受關注的研究內容,目前被廣泛的應用于人工智能相關應用的研究與開發當中。
分布式計算是一種計算方法,和集中式計算是相對的。隨著計算技術的發展,有些應用需要非常巨大的計算能力才能完成,如果采用集中式計算,需要耗費相當長的時間來完成。分布式計算將該應用分解成許多小的部分,分配給多臺計算機進行處理。這樣可以節約整體計算時間,大大提高計算效率。
深度學習的概念源于人工神經網絡的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發現數據的分布式特征表示。
目前的分布式運算只能針對固定的運算集群,比如款項等運算集群,并不能進行動態擴展,導致分布運算的適用性受限,也沒有一種方法可以實現深度學習中的分布式運算的運行環境與GPU硬件隔離以實現運算集群的動態擴展,導致深度學習模型的訓練速度低下。
因此,有必要設計一種新的方法,實現運行環境與圖像處理器隔離,進行運算集群的動態擴展,且提高深度學習模型的訓練速度。
發明內容
本發明的目的在于克服現有技術的缺陷,提供深度學習分布式運算方法、裝置、計算機設備及存儲介質。
為實現上述目的,本發明采用以下技術方案:深度學習分布式運算方法,包括:
封裝模型,形成模型對象;
確定運算數目;
獲取請求;
根據請求獲取哈希值;
根據哈希值與模型對象進行任務分發;
根據分發結果在Docker容器執行任務所對應的代碼;
判斷任務所對應的代碼是否執行完畢;
若是,則釋放Docker容器內的任務所對應的代碼。
其進一步技術方案為:所述確定運算數目,包括:
獲取參與運算的圖形處理器的個數;
根據模型對象的參數量、訓練步數以及圖形處理器的個數獲取代碼訓練量;
根據代碼訓練量確定運算數目。
其進一步技術方案為:所述根據請求獲取哈希值之前,還包括:
上傳成功響應請求的數據集。
其進一步技術方案為:所述根據分發結果在Docker容器執行任務所對應的代碼,還包括:
獲取空閑的運算集群;
發送所述運算集群對應任務相關哈希值、模型對象以及圖形處理器的個數至所述運算集群;
根據哈希值下載任務所對應的代碼以及成功響應請求的數據集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深算科技(重慶)有限公司,未經深算科技(重慶)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811080562.6/2.html,轉載請聲明來源鉆瓜專利網。





