[發(fā)明專(zhuān)利]一種基于作業(yè)調(diào)度系統(tǒng)的應(yīng)用作業(yè)控制系統(tǒng)及其控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 201210333454.1 | 申請(qǐng)日: | 2012-09-10 |
| 公開(kāi)(公告)號(hào): | CN102880506A | 公開(kāi)(公告)日: | 2013-01-16 |
| 發(fā)明(設(shè)計(jì))人: | 張磊;張濤 | 申請(qǐng)(專(zhuān)利權(quán))人: | 曙光信息產(chǎn)業(yè)(北京)有限公司 |
| 主分類(lèi)號(hào): | G06F9/46 | 分類(lèi)號(hào): | G06F9/46 |
| 代理公司: | 北京安博達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11271 | 代理人: | 徐國(guó)文 |
| 地址: | 100193 北京市海*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 作業(yè) 調(diào)度 系統(tǒng) 應(yīng)用 控制系統(tǒng) 及其 控制 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種高性能計(jì)算機(jī)群的控制系統(tǒng)及其控制方法,具體涉及一種基于作業(yè)調(diào)度系統(tǒng)的應(yīng)用作業(yè)控制系統(tǒng)及其控制方法。
背景技術(shù)
在高性能計(jì)算集群的使用中,很多應(yīng)用作業(yè)在提交運(yùn)行后會(huì)長(zhǎng)期占用大量的計(jì)算資源,甚至有些作業(yè)會(huì)以服務(wù)的形式長(zhǎng)時(shí)間存在,對(duì)于這種類(lèi)型的作業(yè),從作業(yè)調(diào)度系統(tǒng)的角度所看到的作業(yè)狀態(tài)始終為Run,而使用者更為關(guān)注的這類(lèi)作業(yè)的應(yīng)用本身的運(yùn)行情況并沒(méi)能顯示出來(lái),應(yīng)用本身已經(jīng)處于異常狀態(tài),但應(yīng)用依舊以作業(yè)的形式運(yùn)行于集群之中的情況卻是時(shí)有發(fā)生的,針對(duì)這樣的情況,調(diào)度系統(tǒng)暫未捕捉此類(lèi)異常。而這種情況往往會(huì)帶來(lái)的后果就是:
1、應(yīng)用作業(yè)已經(jīng)處于異常狀態(tài)、無(wú)法提供正常的服務(wù)時(shí),卻不能被及時(shí)發(fā)現(xiàn),做出相應(yīng)處理
2、作業(yè)所占用的大量資源無(wú)法得到及時(shí)釋放;
3、作業(yè)耗費(fèi)長(zhǎng)時(shí)運(yùn)行結(jié)束,卻無(wú)法得到正常的運(yùn)行結(jié)果,或無(wú)法確定所得到運(yùn)行結(jié)果的正確性。
現(xiàn)有調(diào)度系統(tǒng)僅從作業(yè)的角度為使用者提供作業(yè)的相應(yīng)狀態(tài)信息,而沒(méi)有針對(duì)應(yīng)用本身的運(yùn)行狀態(tài)進(jìn)行監(jiān)控和管理。這也就出現(xiàn)了上述的問(wèn)題。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于作業(yè)調(diào)度系統(tǒng)的應(yīng)用作業(yè)控制系統(tǒng)及其控制方法,該方法解決了現(xiàn)有調(diào)度系統(tǒng)僅從作業(yè)的角度為使用者提供作業(yè)的相應(yīng)狀態(tài)信息,而沒(méi)有針對(duì)應(yīng)用本身的運(yùn)行狀態(tài)進(jìn)行監(jiān)控和管理的問(wèn)題,保證高性能計(jì)算集群上作業(yè)內(nèi)的應(yīng)用程序的正常運(yùn)行,同時(shí)當(dāng)應(yīng)用程序作業(yè)運(yùn)行狀態(tài)異常時(shí),異常應(yīng)用對(duì)應(yīng)作業(yè)會(huì)在第一時(shí)間進(jìn)入作業(yè)調(diào)度系統(tǒng)的Rerun(重新運(yùn)行)狀態(tài),避免了資源的浪費(fèi),同時(shí)還保證了應(yīng)用程序作業(yè)運(yùn)行的準(zhǔn)確性。
本發(fā)明的目的是采用下述技術(shù)方案實(shí)現(xiàn)的:
一種基于作業(yè)調(diào)度系統(tǒng)的應(yīng)用作業(yè)控制系統(tǒng),其改進(jìn)之處在于,所述控制系統(tǒng)包括組播消息發(fā)送器、應(yīng)用程序監(jiān)控器和作業(yè)調(diào)度系統(tǒng);
所述組播消息發(fā)送器被應(yīng)用程序作業(yè)調(diào)用后,向組播域發(fā)送組播消息;所述應(yīng)用程序監(jiān)控器中的應(yīng)用監(jiān)聽(tīng)器接收所述組播消息并將其發(fā)送到應(yīng)用程序監(jiān)控器中的消息分析器中;所述消息分析器判定所述組播消息運(yùn)行狀態(tài)是否正常,若處于異常狀態(tài),則通過(guò)所述作業(yè)調(diào)度系統(tǒng)將該應(yīng)用程序作業(yè)Rerun;
當(dāng)應(yīng)用程序監(jiān)控器中的應(yīng)用監(jiān)聽(tīng)器在>10ms的指定時(shí)間內(nèi)沒(méi)有收到應(yīng)用作業(yè)的組播消息,則認(rèn)為應(yīng)用作業(yè)處于異常狀態(tài),則通過(guò)所述作業(yè)調(diào)度系統(tǒng)將該應(yīng)用程序作業(yè)Rerun。
其中,所述組播消息發(fā)送器被應(yīng)用程序作業(yè)調(diào)用后,以組播格式組成結(jié)構(gòu)向組播域中發(fā)送組播消息。
其中,所述應(yīng)用程序監(jiān)控器包括應(yīng)用監(jiān)聽(tīng)器和消息分析器;
所述應(yīng)用監(jiān)聽(tīng)器接收所述組播消息并將其發(fā)送到消息分析器中;
所述消息分析器判定組播消息的運(yùn)行狀態(tài)是否正常。
其中,若組播消息處于異常狀態(tài),則通過(guò)所述作業(yè)調(diào)度系統(tǒng)將該應(yīng)用程序作業(yè)Rerun。
本發(fā)明基于另一目的提供的一種基于作業(yè)調(diào)度系統(tǒng)的應(yīng)用作業(yè)控制方法,其改進(jìn)之處在于,所述方法包括下述步驟:
(1)組播消息發(fā)送器被應(yīng)用程序作業(yè)調(diào)用后,向組播域發(fā)送組播消息;
(2)所述應(yīng)用程序監(jiān)控器中的應(yīng)用監(jiān)聽(tīng)器接收所述組播消息并將其發(fā)送到應(yīng)用程序監(jiān)控器中的消息分析器中;
(3)所述消息分析器判定所述組播消息運(yùn)行狀態(tài)是否正常;
(4)若處于異常狀態(tài),則通過(guò)作業(yè)調(diào)度系統(tǒng)將該應(yīng)用程序作業(yè)Rerun。
其中,所述步驟(1)中,組播消息發(fā)送器被應(yīng)用程序作業(yè)調(diào)用后,以組播格式組成結(jié)構(gòu)向組播域發(fā)送組播消息。
其中,所述組播格式組成結(jié)構(gòu)包括:
頭部信息:用于應(yīng)用監(jiān)聽(tīng)器在監(jiān)聽(tīng)組播域時(shí),過(guò)濾出組播消息發(fā)送器所發(fā)出的組播消息;
消息類(lèi)型碼:用于確定組播消息的類(lèi)型,消息的類(lèi)型分為組合和單一兩種類(lèi)型;組合類(lèi)型的消息,是指單從本條消息中無(wú)法確定作業(yè)中的應(yīng)用程序運(yùn)行狀態(tài)是否正常,與該作業(yè)的組播消息發(fā)送器發(fā)送的下一條組播消息相結(jié)合;單一類(lèi)型的消息,是指利用本條消息中的消息內(nèi)容碼和判定規(guī)則碼判定當(dāng)前作業(yè)中的應(yīng)用程序運(yùn)行狀態(tài)是否正常;
判定規(guī)則碼:根據(jù)該判定規(guī)則碼對(duì)應(yīng)的判定規(guī)則,來(lái)處理消息內(nèi)容碼后,可判定出作業(yè)中的應(yīng)用程序運(yùn)行狀態(tài);
消息內(nèi)容碼:應(yīng)用監(jiān)聽(tīng)器傳給組播消息發(fā)送器的應(yīng)用狀態(tài)信息,用于判定作業(yè)中的應(yīng)用程序的運(yùn)行狀態(tài)的依據(jù)。
其中,所述步驟(2)中,應(yīng)用監(jiān)聽(tīng)器接收所述組播消息后,根據(jù)組播頭部信息過(guò)濾出所需的組播消息;再利用組播消息中的作業(yè)信息獲取作業(yè)調(diào)度系統(tǒng)作業(yè)的ID信息;所述應(yīng)用監(jiān)聽(tīng)器將ID信息、消息類(lèi)型碼、判定規(guī)則碼和消息內(nèi)容碼發(fā)送到消息分析器中。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于曙光信息產(chǎn)業(yè)(北京)有限公司,未經(jīng)曙光信息產(chǎn)業(yè)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210333454.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
- 旅游車(chē)輛調(diào)度監(jiān)控方法及其系統(tǒng)
- 一種用戶(hù)隊(duì)列調(diào)度的方法和裝置
- 一種資源調(diào)度的方法、裝置和過(guò)濾式調(diào)度器
- 一種調(diào)度方法和裝置
- 一種調(diào)度終端動(dòng)態(tài)切換調(diào)度組歸屬關(guān)系的方法及裝置
- 用戶(hù)調(diào)度方法、裝置、基站和存儲(chǔ)介質(zhì)
- 一種食材的調(diào)度系統(tǒng)和方法
- 一種資源調(diào)度的方法、裝置和過(guò)濾式調(diào)度器
- 任務(wù)調(diào)度方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種自動(dòng)化調(diào)度系統(tǒng)和調(diào)度方法





