[發(fā)明專利]用于生成作業(yè)告警的方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201410499398.8 | 申請日: | 2014-09-25 |
| 公開(公告)號: | CN105511957B | 公開(公告)日: | 2019-05-07 |
| 發(fā)明(設(shè)計)人: | 史巨偉;鄒嘉;徐林昊;曹朝;王晨;李鵬;張曉寧;閆長海;馬駿;孫冰江 | 申請(專利權(quán))人: | 國際商業(yè)機器公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F11/34 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 王茂華 |
| 地址: | 美國紐*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 目標作業(yè) 告警 資源開銷 輸出 處理目標 輸出數(shù)據(jù) 中間結(jié)果 關(guān)聯(lián) 響應(yīng) 分析 發(fā)現(xiàn) 開發(fā) | ||
本公開內(nèi)容涉及用于生成作業(yè)告警的方法和系統(tǒng)。根據(jù)本發(fā)明的實施例,在處理目標作業(yè)之前,通過分析歷史作業(yè)來確定目標作業(yè)在至少一個階段中的輸入輸出的特性,并且基于輸入輸出的特性,計算與目標作業(yè)的處理相關(guān)聯(lián)的資源開銷。然后,響應(yīng)于資源開銷超過預(yù)定閾值,生成針對目標作業(yè)的告警。以此方式,可以前瞻性地在資源開銷問題發(fā)生之前生成針對目標作業(yè)的告警,使得管理員或開發(fā)人員能夠提前發(fā)現(xiàn)故障并做出積極的應(yīng)對舉措,避免了在目標作業(yè)被處理時中間結(jié)果或輸出數(shù)據(jù)的丟失和損壞。
技術(shù)領(lǐng)域
本發(fā)明的實施例總體上涉及計算機領(lǐng)域,更具體地,涉及用于生成作業(yè)告警的方法和系統(tǒng)。
背景技術(shù)
支持并行計算的作業(yè)處理框架因其能夠及時、有效地處理大數(shù)據(jù)集而得到廣泛的應(yīng)用。在這樣的作業(yè)處理框架中,一個作業(yè)(job)被劃分為在一個或多個階段執(zhí)行的多個任務(wù)(task)。每個階段中的任務(wù)可以被分配到不同的計算節(jié)點中并行處理,從而提高作業(yè)處理效率。例如,MapReduce(映射-化簡)框架就是一種目前常被使用的并行作業(yè)處理框架,其在web訪問日志分析、文檔聚類、機器學習、數(shù)據(jù)統(tǒng)計、基于統(tǒng)計的機器翻譯等領(lǐng)域均有應(yīng)用。
在并行作業(yè)處理過程中,往往需要一些計算或存儲資源的支持。例如,當一個作業(yè)在多個階段中被執(zhí)行時,上一階段的輸出(也可以稱為“中間結(jié)果”)往往會被寫入到計算節(jié)點的本地磁盤,以便在下一階段的任務(wù)中被讀取作為輸入。當完成作業(yè)的處理時,該作業(yè)的輸出數(shù)據(jù)可以被存儲在例如分布式文件系統(tǒng)等存儲系統(tǒng)中。對于涉及大數(shù)據(jù)集的作業(yè)處理而言,并行處理系統(tǒng)能否支持作業(yè)的資源開銷是系統(tǒng)管理員和作業(yè)開發(fā)人員關(guān)心的問題。作業(yè)告警(alert)可以用于指示系統(tǒng)資源開銷的問題。
在生成作業(yè)告警的已知方案中,當一個作業(yè)被提交之后,作業(yè)處理系統(tǒng)直接處理該作業(yè)。在作業(yè)處理過程中,如果所產(chǎn)生的中間結(jié)果的存儲量大于本地磁盤的可用存儲空間,或者作業(yè)的最終輸出數(shù)據(jù)的存儲量大于存儲系統(tǒng)的可用存儲空間,作業(yè)處理系統(tǒng)生成告警。然而,在磁盤空間不足或者存儲系統(tǒng)空間不足這樣的嚴重問題已經(jīng)發(fā)生的情況下生成告警,會造成作業(yè)的中間結(jié)果或輸出數(shù)據(jù)的丟失和損壞。在這種情況下,系統(tǒng)管理員或作業(yè)開發(fā)人員無法主動避免存儲空間不足等資源開銷問題,而是在根據(jù)告警獲知資源開銷問題發(fā)生之后被動地修復(fù)故障,從而不能夠及時處理系統(tǒng)故障。另外,如果在計算節(jié)點中產(chǎn)生的中間結(jié)果的量過多,也將引起對該計算節(jié)點的I/O資源和計算資源(例如CPU處理)的較大挑戰(zhàn)。
發(fā)明內(nèi)容
鑒于上述以及其他潛在問題,本領(lǐng)域中需要一種前瞻性的作業(yè)告警的解決方案。
根據(jù)本發(fā)明的一個方面,提供了一種用于生成作業(yè)告警的方法。所述方法包括:通過分析歷史作業(yè)來確定目標作業(yè)在至少一個階段中的輸入輸出的特性,所述目標作業(yè)將要在所述至少一個階段中被并行處理;基于所述輸入輸出的特性,計算與所述目標作業(yè)的處理相關(guān)聯(lián)的資源開銷;以及響應(yīng)于所述資源開銷超過預(yù)定閾值,生成針對所述目標作業(yè)的告警。
根據(jù)本發(fā)明的另一個方面,提供了一種用于生成作業(yè)告警的系統(tǒng)。所述系統(tǒng)包括:特性確定單元,被配置為通過分析歷史作業(yè)來確定目標作業(yè)在至少一個階段中的輸入輸出的特性,所述目標作業(yè)將要在所述至少一個階段中被并行處理;資源開銷計算單元,被配置為基于所述輸入輸出的特性,計算與所述目標作業(yè)的處理相關(guān)聯(lián)的資源開銷;以及告警生成單元,被配置為響應(yīng)于所述資源開銷超過預(yù)定閾值,生成針對所述目標作業(yè)的告警。
通過下文描述將會理解,根據(jù)本發(fā)明的實施例,歷史作業(yè)被用于確定目標作業(yè)的輸入輸出的特性,從而可以計算目標作業(yè)的資源開銷。因此,在目標作業(yè)被處理之前,針對目標作業(yè)的告警可以基于所計算的資源開銷而被生成。以此方式,可以前瞻性地在資源開銷問題發(fā)生之前生成針對目標作業(yè)的告警,使得管理員或開發(fā)人員能夠提前發(fā)現(xiàn)故障并做出積極的應(yīng)對舉措,避免了在目標作業(yè)被處理時中間結(jié)果或輸出數(shù)據(jù)的丟失和損壞。本發(fā)明的其他特征和優(yōu)點將通過下文描述而變得容易理解。
附圖說明
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410499398.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:對洗衣機的過濾組件進行清洗的控制方法
- 下一篇:LDMOS器件及其制造方法
- 作業(yè)機械的控制系統(tǒng)、作業(yè)機械以及作業(yè)機械的控制方法
- 深度學習作業(yè)調(diào)度方法、系統(tǒng)和相關(guān)設(shè)備
- 外延生長設(shè)備、作業(yè)控制方法和裝置
- 一種訓(xùn)練方法、裝置及電子設(shè)備和存儲介質(zhì)
- 作業(yè)處理的方法、裝置、計算機設(shè)備及可讀存儲介質(zhì)
- 多集群式人工智能在線服務(wù)方法及系統(tǒng)
- 一種作業(yè)故障影響確定方法及相關(guān)設(shè)備
- 一種變電站現(xiàn)場作業(yè)目標實時監(jiān)控方法及其系統(tǒng)
- 作業(yè)信息展示方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 作業(yè)操作風險演示方法及裝置、存儲介質(zhì)、電子裝置





