[發明專利]分布式機器學習任務啟動方法、系統、設備及存儲介質在審
| 申請號: | 201811482001.9 | 申請日: | 2018-12-05 |
| 公開(公告)號: | CN111352664A | 公開(公告)日: | 2020-06-30 |
| 發明(設計)人: | 李大超;何云龍;董犖;陳澤友 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F9/445 | 分類號: | G06F9/445;G06N3/08;H04L29/08 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 袁禮君;闞梓瑄 |
| 地址: | 100086 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 機器 學習 任務 啟動 方法 系統 設備 存儲 介質 | ||
本發明提供了一種分布式機器學習任務啟動方法、系統、設備及存儲介質,所述方法包括:配置kubernetes Pod資源中的環境變量,所述環境變量包括所有節點的域名和端口信息;配置kubernetes Pod資源中容器的啟動命令,所述啟動命令將所述環境變量傳入分布式機器學習任務啟動腳本;根據所述環境變量和所述容器的啟動命令創建kubernetes Pod資源,所述kubernetes Pod資源中容器配置為執行所述啟動命令。本發明使用靈活、不固定的網絡元組信息,同時也省去需要二次登錄再執行啟動命令的步驟,來實現在啟動容器時直接執行啟動命令,從而提高分布式機器學習任務啟動過程的靈活性和高效性。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種分布式機器學習任務啟動方法、系統、設備及存儲介質。
背景技術
隨著大數據與云計算的興起,兩者驅動著人工智能在飛速發展。機器學習作為人工智能領域內的一種重要技術,由于有了大數據和云計算的支撐,也在變得越來越普及和實用,這也就是現在非常流行的數據+算法模型推動應用發展的模式。在大數據和云計算時代到臨之前,數據規模有限,設計的算法模型也比較簡單,大多數的時候都是單臺機器(單節點)進行模型訓練。但現在,數據量變得非常大,模型結構也越來越復雜,單臺機器的容量和計算能力都有限,不能我們的需求,我們需要擴大規模來解決這個問題,因此分布式機器學習越來越成為一種趨勢。分布式機器學習指利用多臺機器(數十,幾百或者上千)來組成一個計算集群,通過這個計算集群來訓練需要使用大量數據的復雜算法模型。分布式機器學習能夠加速模型訓練的過程,縮短訓練時間,提升模型訓練的效率。
由于需要利用多臺機器,分布式機器學習中,一般會設計有不同的角色,角色之間功能不同,每種角色包含多個節點,所有的節點組成一起就是完整的計算集群。一次具體的訓練任務,需要將所有的節點都啟動,每個節點上的啟動命令需要知道其他節點的網絡元組信息,如果信息缺少或者有誤,整個訓練任務將會執行失敗。
舉例來說,可以假設有Role-A和Role-B(多種角色也可以依此類推),同時假設Role-A有M個,Role-B有N個。那么在分布式訓練任務中,需要M+N個節點,每個節點都會有用于網絡連接的“HOST:PORT”元組。例如:Role-A,k,Hk:Pa來表示角色A中的第k個組員的網絡連接元組。
一般分布式機器學習任務執行過程可以分為四個階段:
(1)分配每個角色的所有節點。節點可以是物理機或者容器,如果用物理機就是指定M+N個機器作為節點,如果是容器則需要啟動M+N個容器。
(2)獲取所有節點的HOST:PORT(HOST表示能夠同其他機器互相訪問的本地計算機,PORT是指接口)。如果節點是物理機,可以用物理機IP,如果節點是容器,需要用容器IP,這里需要保證所有的IP之間網絡是互通的。即所有的網絡元組:Role-A,1,H1:Pa…Role-A,m,Hm:Pa…Role-B,1,H1:Pb…Role-B,n,Hn:Pb
(3)生成節點啟動命令。一般來說,分布式機器學習任務比單機任務在啟動命令上的最主要的不同在于啟動命令需要加上網絡元組信息。例如:Role-A的所有網絡元組是RoleAHosts=[H1:Pa,…,Hm:Pa];Role-B的所有網絡元組RoleBHosts=[H1:Pb,…,Hn:Pb],每個節點在執行具體的啟動命令時,一般通過帶上RoleAHosts和RoleBHosts作為參數傳入,例如節點Role-A,1啟動命令:start_script--roleA_hosts=RoleAHosts--roleB_hosts=RoleBHosts。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811482001.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種室分小區故障定位方法及裝置
- 下一篇:一種像素電路、顯示裝置和驅動方法





