[發明專利]一種基于數據集與節點緩存的調度方法和裝置有效
| 申請號: | 202010923074.8 | 申請日: | 2020-09-04 |
| 公開(公告)號: | CN112202837B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 王德奎;陳培 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | H04L67/1042 | 分類號: | H04L67/1042;H04L67/1001;H04L67/5682;G06F9/50 |
| 代理公司: | 北京連和連知識產權代理有限公司 11278 | 代理人: | 李紅蕭;張騰 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 節點 緩存 調度 方法 裝置 | ||
本發明公開了一種基于數據集與節點緩存的調度方法,包括:獲取每個主機節點的存儲資源信息;響應于接收到訓練任務,獲取訓練任務的運行信息,根據運行信息和存儲資源信息篩選滿足訓練任務所需空間的主機節點;響應于所有主機節點都不滿足訓練任務所需的空間,根據存儲資源信息對每個主機節點打分;根據打分的結果在所有主機節點中選擇用于執行訓練任務的待執行主機節點;獲取并刪除待執行主機節點中的廢棄數據集緩存,并在待執行主機節點中執行訓練任務。本發明還公開了一種相應的裝置。本發明可以有效地將訓練任務運行在存儲空間暫時不足的節點。
技術領域
本發明涉及計算機技術領域,更具體地,特別是指一種基于數據集與節點緩存的調度方法和裝置。
背景技術
在AI場景下,訓練任務對數據集有很強的依賴,例如數據集的質量會影響模型的準確度,訓練腳本加載數據集的速度會影響的模型的訓練速度。AI訓練使用的數據集通常為開源的數據集,例如ImageNet數據集、MNIST數據集等,或者是行業相關的數據集,例如醫療、交通等,對于AI資源管理平臺,通常無法對數據集的質量進行評估,需要算法人員保證。通常算法人員在啟動訓練任務時,通常需要手動將這些數據下載到節點,才能啟動訓練任務,但是對于AI資源管理平臺通常會將手動下載數據集優化為自動下載數據集,在啟動訓練任務時,AI的資源管理平臺都會為訓練任務自動下載需要的數據集。作為AI資源管理平臺,會為算法人員提供多種數據集,并將這些數據集根據訓練任務的需要緩存到計算節點,但是由于節點的存儲資源有限,可能會出現以下問題:
問題1、進行資源調度時,如果將較多的使用大數據集的任務調度到相同的節點,會導致節點的存儲資源不足,可能會出現節點存儲資源較少,但是CPU、內存空閑較多的問題;
問題2、集群的全部計算節點可能同時緩存了大量的不再使用的數據集緩存,導致節點存儲資源不足,當進行資源調度的時候,可能發現沒有合適的節點用于緩存數據集。
發明內容
有鑒于此,本發明實施例的目的在于提供一種基于數據集與節點緩存的調度策略,在滿足訓練任務使用本地數據集緩存的前提下,可以達到集群節點存儲資源負載均衡的效果。
基于上述目的,本發明一方面提供了一種基于數據集與節點緩存的調度方法,該方法包括:
獲取每個主機節點的存儲資源信息;
響應于接收到訓練任務,獲取訓練任務的運行信息,根據運行信息和存儲資源信息篩選滿足訓練任務所需空間的主機節點;
響應于所有主機節點都不滿足訓練任務所需的空間,根據存儲資源信息對每個主機節點打分;
根據打分的結果在所有主機節點中選擇用于執行訓練任務的待執行主機節點;
獲取并刪除待執行主機節點中的廢棄數據集緩存,并在待執行主機節點中執行訓練任務。
在本發明的基于數據集與節點緩存的調度方法的一些實施方式中,方法還包括:
判斷各個主機節點中是否包含訓練任務所需的數據集緩存;
響應于判斷有主機節點中存在數據集緩存,在包含數據集緩存的主機節點中選擇執行訓練任務的主機節點。
在本發明的基于數據集與節點緩存的調度方法的一些實施方式中,響應于接收到訓練任務,獲取訓練任務的運行信息,根據運行信息和存儲資源信息篩選滿足訓練任務所需空間的主機節點還包括:
響應于在主機節點中篩選出若干滿足訓練任務所需的空間的待定主機節點;
基于調度策略在待定主機節點中選擇執行訓練任務的主機節點。
在本發明的基于數據集與節點緩存的調度方法的一些實施方式中,獲取每個主機節點的存儲資源信息還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010923074.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





