[發(fā)明專利]一種基于SLURM調(diào)度的算法集成與評(píng)測(cè)平臺(tái)及方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310585227.2 | 申請(qǐng)日: | 2013-11-19 |
| 公開(kāi)(公告)號(hào): | CN103593192A | 公開(kāi)(公告)日: | 2014-02-19 |
| 發(fā)明(設(shè)計(jì))人: | 李肯立;劉楚波;徐雨明 | 申請(qǐng)(專利權(quán))人: | 湖南大學(xué) |
| 主分類號(hào): | G06F9/44 | 分類號(hào): | G06F9/44;G06F11/36 |
| 代理公司: | 長(zhǎng)沙市融智專利事務(wù)所 43114 | 代理人: | 黃美成 |
| 地址: | 410082 湖*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 slurm 調(diào)度 算法 集成 評(píng)測(cè) 平臺(tái) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于SLURM調(diào)度的算法集成與評(píng)測(cè)平臺(tái)及方法。
背景技術(shù)
SLURM是一個(gè)針對(duì)不同大小Linux集群的資源管理和調(diào)度軟件。它主要提供三個(gè)方面的功能:首先,它為用戶提供了一種以獨(dú)占或者非獨(dú)占的方式使用計(jì)算資源一定時(shí)間的機(jī)制,用以在相應(yīng)的時(shí)間內(nèi)為用戶運(yùn)行作業(yè);其次,它提供了一套啟動(dòng)、執(zhí)行及監(jiān)控分配在計(jì)算節(jié)點(diǎn)上作業(yè)的框架,主要是方便用戶實(shí)時(shí)的了解提交作業(yè)的運(yùn)行情況;最后,它實(shí)現(xiàn)了對(duì)排隊(duì)作業(yè)資源競(jìng)爭(zhēng)的管理。
SLURM是非常模塊化的設(shè)計(jì),包括數(shù)十個(gè)可選的插件。它最簡(jiǎn)單的配置中,可以在幾分鐘之內(nèi)安裝完成,而更復(fù)雜的配置可以依賴于以MySQL等數(shù)據(jù)庫(kù)來(lái)對(duì)作業(yè)記錄、作業(yè)管理以及資源限制條件進(jìn)行歸檔,同時(shí),它還支持更復(fù)雜的作業(yè)優(yōu)先權(quán)調(diào)度算法。目前,世界上已經(jīng)有很多的超算機(jī)構(gòu)使用SLURM來(lái)對(duì)資源和作業(yè)進(jìn)行管理,其中著名的有Tianhe-1A、Tera100、Dawn、Rosa、EKA等。總的來(lái)說(shuō),SLURM主要包括資源管理模塊和作業(yè)調(diào)度模塊。
資源管理模塊主要負(fù)責(zé)對(duì)系統(tǒng)資源進(jìn)行管理、分配和收集,在主控制節(jié)點(diǎn)上會(huì)有中心守護(hù)進(jìn)程(slurmctld)駐留,而在計(jì)算節(jié)點(diǎn)上會(huì)有監(jiān)控進(jìn)程(slurmd)駐留。slurmd調(diào)用相應(yīng)的資源收集信息函數(shù),收集本地資源信息。初始時(shí),次節(jié)點(diǎn)守護(hù)進(jìn)程向中心守護(hù)進(jìn)程發(fā)送信息注冊(cè),之后主控進(jìn)程(slurmctld)定期的向次節(jié)點(diǎn)進(jìn)行詢問(wèn)以便了解整個(gè)系統(tǒng)的情況。
作業(yè)調(diào)度模塊則根據(jù)系統(tǒng)資源的當(dāng)前狀況對(duì)作業(yè)隊(duì)列進(jìn)行調(diào)度,而調(diào)度方法主要采用插件的機(jī)制進(jìn)行集成。作業(yè)調(diào)度模塊可以動(dòng)態(tài)的根據(jù)資源管理模塊提供的當(dāng)前資源狀態(tài)信息,如License使用情況、處理器負(fù)載、應(yīng)用系統(tǒng)負(fù)載等信息,用一種或多種調(diào)度算法決定將作業(yè)分發(fā)到哪個(gè)節(jié)點(diǎn)上進(jìn)行計(jì)算。作業(yè)調(diào)度模塊主要分為兩部分,一是對(duì)作業(yè)隊(duì)列進(jìn)行調(diào)度,即如何選擇作業(yè)隊(duì)列中的作業(yè);二是將選擇的作業(yè)分發(fā)到合適的計(jì)算節(jié)點(diǎn),以便充分利用資源的同時(shí)又能提高作業(yè)的運(yùn)行效率。因此,如何使該軟件的調(diào)度模塊具有更強(qiáng)的靈活性,豐富該模塊的算法是一個(gè)很重要的問(wèn)題。
現(xiàn)有的SLURM調(diào)度模塊插件機(jī)制雖然有一定的靈活性,但也有諸多不足:
一方面,軟件開(kāi)發(fā)人員或者用戶在對(duì)SLURM軟件的調(diào)度模塊中集成自己的算法時(shí)需要做很多與該模塊相關(guān)的工作。如,需要剖析與該模塊相關(guān)的其它模塊的源碼、分析該模塊在SLURM總體架構(gòu)中的位置、從現(xiàn)有的SLURM軟件中提取出公共的結(jié)構(gòu)體和重要的全局變量等。對(duì)于熟悉該軟件的開(kāi)發(fā)人員來(lái)說(shuō)可能不是一件很難的事,然而,對(duì)于普通的應(yīng)用SLURM軟件的人員來(lái)說(shuō)就不方便集成自己的算法,極大的限制了相關(guān)人員集成算法的想法。
另一方面,原有的插件機(jī)制雖然很靈活,但也需要剖析該軟件的源碼,將方法靜態(tài)的加入該軟件中。不能動(dòng)態(tài)的使用相關(guān)的其它調(diào)度算法,也不能測(cè)試算法的性能。在一定程度上難以豐富該模塊中的算法,也難以對(duì)相關(guān)的調(diào)度算法在真實(shí)的環(huán)境中的性能進(jìn)行評(píng)測(cè)和比較。
總的來(lái)說(shuō),對(duì)于只想應(yīng)用SLURM軟件的用戶來(lái)說(shuō),在模塊中集成自己的算法或在真實(shí)的環(huán)境下評(píng)測(cè)自己調(diào)度算法的性能使用不便。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于SLURM調(diào)度的算法集成與評(píng)測(cè)平臺(tái)及方法,其目的在于克服現(xiàn)有技術(shù)中,使用采用該SLURM軟件集成算法時(shí)不方便,無(wú)法直接對(duì)算法進(jìn)行性能檢測(cè)的問(wèn)題。
一種基于SLURM調(diào)度的算法集成與評(píng)測(cè)平臺(tái),包括封裝模塊、上傳下載模塊、調(diào)度接口模塊、編譯模塊、算法集成模塊及算法性能統(tǒng)計(jì)模塊;
所述的算法集成與評(píng)測(cè)平臺(tái)運(yùn)行在計(jì)算機(jī)集群環(huán)境中,所述計(jì)算機(jī)集群是指包含多臺(tái)裝有Linux操作系統(tǒng)且安裝有SLURM軟件的計(jì)算機(jī);
所述上傳下載模塊,用于將平臺(tái)使用者自行編寫(xiě)的子函數(shù)接口源碼文件上傳至服務(wù)器;以及用于使用者從服務(wù)器下載封裝模塊;
所述服務(wù)器是指計(jì)算機(jī)集群中的一臺(tái)計(jì)算機(jī);
所述封裝模塊是指封裝好的頭文件或動(dòng)態(tài)鏈接庫(kù)文件;
所述調(diào)度接口模塊,包括兩部分:第一部分是該平臺(tái)設(shè)計(jì)者對(duì)調(diào)度API接口定義的編碼框架模版文件;第二部分是調(diào)度接口文件整合程序;
所述調(diào)度接口文件整合程序的作用是利用Linux的sed指令將編碼框架模板文件中的算法名稱更改為使用者指定的名稱,形成新的調(diào)度文件;以及利用Linux的cat指令將形成的新的調(diào)度文件與使用者上傳的源碼文件進(jìn)行融合,形成完整的調(diào)度API接口文件;
當(dāng)平臺(tái)使用者上傳源碼文件后,運(yùn)行調(diào)度接口文件整合程序,自動(dòng)將新的調(diào)度文件和源碼文件的內(nèi)容整合成完整的調(diào)度API接口文件;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖南大學(xué),未經(jīng)湖南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310585227.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于SLURM調(diào)度的算法集成與評(píng)測(cè)平臺(tái)及方法
- 一種細(xì)粒度的高性能云資源管理調(diào)度方法
- 基于LDAP與SLURM的云用戶管理方法及系統(tǒng)
- 一種基于Slurm作業(yè)管理的可視化調(diào)度系統(tǒng)
- 一種Slurm作業(yè)調(diào)度方法及系統(tǒng)
- 一種基于SLURM作業(yè)調(diào)度系統(tǒng)的預(yù)計(jì)費(fèi)裝置和方法
- 基于Slurm的信息采集方法和裝置、服務(wù)器、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- Slurm集群計(jì)費(fèi)方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于SLURM作業(yè)調(diào)度系統(tǒng)的昇騰處理器管理和調(diào)度方法
- 軟件許可證的調(diào)度方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 旅游車(chē)輛調(diào)度監(jiān)控方法及其系統(tǒng)
- 一種用戶隊(duì)列調(diào)度的方法和裝置
- 一種資源調(diào)度的方法、裝置和過(guò)濾式調(diào)度器
- 一種調(diào)度方法和裝置
- 一種調(diào)度終端動(dòng)態(tài)切換調(diào)度組歸屬關(guān)系的方法及裝置
- 用戶調(diào)度方法、裝置、基站和存儲(chǔ)介質(zhì)
- 一種食材的調(diào)度系統(tǒng)和方法
- 一種資源調(diào)度的方法、裝置和過(guò)濾式調(diào)度器
- 任務(wù)調(diào)度方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種自動(dòng)化調(diào)度系統(tǒng)和調(diào)度方法





