[發(fā)明專利]一種層次化集群作業(yè)管理系統(tǒng)及方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011109594.1 | 申請(qǐng)日: | 2020-10-16 |
| 公開(公告)號(hào): | CN112261105B | 公開(公告)日: | 2023-02-03 |
| 發(fā)明(設(shè)計(jì))人: | 李謙;袁盾;劉康;賈磊 | 申請(qǐng)(專利權(quán))人: | 天津津航計(jì)算技術(shù)研究所 |
| 主分類號(hào): | H04L67/10 | 分類號(hào): | H04L67/10;H04L67/51 |
| 代理公司: | 中國(guó)兵器工業(yè)集團(tuán)公司專利中心 11011 | 代理人: | 王雪芬 |
| 地址: | 300308 天津*** | 國(guó)省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 層次 集群 作業(yè) 管理 系統(tǒng) 方法 | ||
1.一種層次化集群作業(yè)管理系統(tǒng),其特征在于,包括作業(yè)分發(fā)模塊、作業(yè)管理模塊、資源管理模塊;
所述資源管理模塊用于管理和監(jiān)控系統(tǒng)中的各節(jié)點(diǎn)的資源使用情況;
其中,將節(jié)點(diǎn)狀態(tài)定義為三種狀態(tài),分別是free態(tài)、busy態(tài)、down態(tài);其中,free態(tài):又名空閑態(tài),表示節(jié)點(diǎn)沒(méi)有任務(wù)在運(yùn)行,可以承擔(dān)新的計(jì)算任務(wù);busy態(tài):又名忙碌態(tài),表示節(jié)點(diǎn)正在執(zhí)行任務(wù),不能再承擔(dān)新的計(jì)算任務(wù);down態(tài):又名異常態(tài),表示該節(jié)點(diǎn)已經(jīng)和管理節(jié)點(diǎn)失去聯(lián)系,節(jié)點(diǎn)出現(xiàn)異常;
節(jié)點(diǎn)的free、down和busy三種狀態(tài)會(huì)在一定條件下相互轉(zhuǎn)換,具體如下:
(1)free態(tài)到busy態(tài):當(dāng)空閑節(jié)點(diǎn)承擔(dān)了新的計(jì)算任務(wù),該節(jié)點(diǎn)的狀態(tài)就會(huì)從free態(tài)轉(zhuǎn)換為busy態(tài);
(2)busy態(tài)到free態(tài):當(dāng)一個(gè)節(jié)點(diǎn)完成了所承擔(dān)的計(jì)算任務(wù)而又沒(méi)有新的計(jì)算任務(wù)需要完成,此時(shí),該節(jié)點(diǎn)的狀態(tài)會(huì)轉(zhuǎn)換為free態(tài);
(3)free態(tài)到down態(tài),busy態(tài)到down態(tài):在節(jié)點(diǎn)運(yùn)行的過(guò)程中,可能出現(xiàn)死機(jī)、網(wǎng)絡(luò)不暢通、管理員強(qiáng)制節(jié)點(diǎn)為離線狀態(tài)等,都會(huì)使節(jié)點(diǎn)的狀態(tài)轉(zhuǎn)換為down狀態(tài);
(4)down態(tài)到free態(tài)、down態(tài)到busy態(tài):節(jié)點(diǎn)要從down態(tài)轉(zhuǎn)換到其它兩種狀態(tài)需要分析節(jié)點(diǎn)進(jìn)入down態(tài)的原因并解決對(duì)應(yīng)的問(wèn)題,如果是由于宕機(jī)引起的,那么需要管理員手動(dòng)重啟機(jī)器;如果是由于網(wǎng)絡(luò)不暢通引起的,那么需要解決網(wǎng)絡(luò)故障;如果是管理員強(qiáng)制節(jié)點(diǎn)狀態(tài)為離線狀態(tài),那么需要管理員取消該命令;
所述作業(yè)分發(fā)模塊包括任務(wù)均分子模塊和節(jié)點(diǎn)異常處理子模塊;
任務(wù)均分子模塊用于完成以下功能:讓已經(jīng)完成任務(wù)的節(jié)點(diǎn)去幫助任務(wù)執(zhí)行緩慢的節(jié)點(diǎn),以達(dá)到節(jié)點(diǎn)資源的均衡利用并縮短作業(yè)的處理時(shí)間的目的;
節(jié)點(diǎn)異常處理子模塊用于完成節(jié)點(diǎn)異常的處理;假設(shè)節(jié)點(diǎn)I承擔(dān)了任務(wù)總量為W項(xiàng)的任務(wù),當(dāng)完成了L項(xiàng)任務(wù)以后,該節(jié)點(diǎn)發(fā)生異常,為了保證該節(jié)點(diǎn)上的任務(wù)能正確地完成,將該節(jié)點(diǎn)上未完成的任務(wù)組裝成新的任務(wù)遷移到其它節(jié)點(diǎn)上繼續(xù)進(jìn)行執(zhí)行,新的任務(wù)命名為異常遷移任務(wù);
所述作業(yè)管理模塊包括作業(yè)腳本組裝子模塊和進(jìn)度管理子模塊;
用戶提交的作業(yè)被分發(fā)到各個(gè)計(jì)算節(jié)點(diǎn),作業(yè)腳本組裝子模塊能夠自動(dòng)組裝作業(yè)腳本,提供了向指定節(jié)點(diǎn)分發(fā)作業(yè)的功能;
進(jìn)度管理子模塊提供各個(gè)作業(yè)的完成進(jìn)度,也就是作業(yè)的完成率,假設(shè)一個(gè)作業(yè)需要生成N個(gè)文件,目前已經(jīng)生成了S個(gè)文件,那么該作業(yè)的完成率Progress為:
(1)
還包括數(shù)據(jù)管理模塊:數(shù)據(jù)管理模塊使用網(wǎng)絡(luò)文件系統(tǒng)NFS,在一個(gè)存儲(chǔ)容量大于預(yù)設(shè)閾值的節(jié)點(diǎn)上配置NFS服務(wù)器,并劃分一個(gè)目錄用于用戶數(shù)據(jù)的存儲(chǔ),其它節(jié)點(diǎn)掛載該目錄;
采用用戶目錄訪問(wèn)權(quán)限來(lái)保證用戶數(shù)據(jù)在系統(tǒng)的安全性,也就是該數(shù)據(jù)空間只有超級(jí)管理員和用戶本身才有訪問(wèn)權(quán)限,其它用戶無(wú)法訪問(wèn),采用域名信息服務(wù)NIS保證整個(gè)集群環(huán)境共享一套用戶賬戶,每一個(gè)用戶賬戶為一個(gè)集群用戶;
所述系統(tǒng)的模型劃分為資源層、支撐軟件層、業(yè)務(wù)邏輯層和用戶訪問(wèn)層;
資源層匯聚了集群環(huán)境中的硬件資源,其基本的組成單位是集群節(jié)點(diǎn),包括管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn);其中,管理節(jié)點(diǎn)對(duì)集群環(huán)境中的其它節(jié)點(diǎn)進(jìn)行管理;在集群環(huán)境中,有多個(gè)計(jì)算節(jié)點(diǎn),處理管理節(jié)點(diǎn)分發(fā)的任務(wù),存儲(chǔ)節(jié)點(diǎn)在系統(tǒng)中用于存儲(chǔ)數(shù)據(jù);
所述支撐軟件層包括應(yīng)用軟件、集群作業(yè)管理軟件、域名信息服務(wù)NIS和網(wǎng)絡(luò)文件系統(tǒng)NFS,其中,應(yīng)用軟件安裝于各個(gè)計(jì)算節(jié)點(diǎn),用于處理用戶提交的任務(wù);集群作業(yè)調(diào)度軟件安裝于所有集群節(jié)點(diǎn),它提供了將計(jì)算任務(wù)組裝成任務(wù)腳本在指定集群節(jié)點(diǎn)上分發(fā)的功能,以及收集各自節(jié)點(diǎn)的資源使用情況;域名信息服務(wù)NIS用于保證整個(gè)集群環(huán)境只有一套用戶賬戶信息,它對(duì)應(yīng)于業(yè)務(wù)邏輯層的用戶管理服務(wù),用于在集群節(jié)點(diǎn)后端進(jìn)行用戶管理,網(wǎng)絡(luò)文件系統(tǒng)NFS用于保證整個(gè)集群節(jié)點(diǎn)至少會(huì)有一個(gè)公有目錄,它對(duì)應(yīng)于業(yè)務(wù)邏輯層的數(shù)據(jù)管理服務(wù),用于存儲(chǔ)用戶的應(yīng)用數(shù)據(jù);
業(yè)務(wù)邏輯層是整個(gè)集群作業(yè)管理系統(tǒng)的核心,用戶對(duì)集群資源的所有操作都需要經(jīng)過(guò)該層的處理,業(yè)務(wù)邏輯層對(duì)用戶屏蔽了集群環(huán)境的底層實(shí)現(xiàn)細(xì)節(jié),為用戶提供了一套統(tǒng)一的服務(wù),這些服務(wù)包括作業(yè)分發(fā)服務(wù)、作業(yè)管理服務(wù)、資源管理服務(wù)、用戶管理服務(wù)、數(shù)據(jù)管理服務(wù)以及計(jì)費(fèi)管理服務(wù);
用戶訪問(wèn)層定義了用戶訪問(wèn)集群作業(yè)管理系統(tǒng)的方式,在該用戶訪問(wèn)層實(shí)現(xiàn)了集群作業(yè)入口,它是用戶使用集群作業(yè)管理系統(tǒng)的接口。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津津航計(jì)算技術(shù)研究所,未經(jīng)天津津航計(jì)算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011109594.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種集群調(diào)度呼叫業(yè)務(wù)中主叫終端信息顯示方法
- 更新網(wǎng)絡(luò)流量管理設(shè)備同時(shí)維持有效性
- 與集群調(diào)度系統(tǒng)進(jìn)行通信的方法、群集接入網(wǎng)關(guān)及系統(tǒng)
- 一種管理集群通信系統(tǒng)資源的方法
- 基于Kubernetes和OpenStack容器云平臺(tái)多集群構(gòu)建方法、介質(zhì)、設(shè)備
- 一種容災(zāi)系統(tǒng)、容災(zāi)處理方法、監(jiān)控節(jié)點(diǎn)和備份集群
- 一種ETCD集群恢復(fù)方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)介質(zhì)
- 混合云場(chǎng)景下保證可用集群數(shù)量的方法、裝置及系統(tǒng)
- 一種集群拓?fù)涓路椒ā⑾到y(tǒng)、設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 集群切換方法、集群切換裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)





