[發(fā)明專利]用于確定在互連/控制器之間的故障的位置的方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 201410534359.7 | 申請日: | 2014-10-11 |
| 公開(公告)號: | CN104598341A | 公開(公告)日: | 2015-05-06 |
| 發(fā)明(設(shè)計(jì))人: | A·K·馬哈詹;V·塞納斯;V·蘇班納 | 申請(專利權(quán))人: | 國際商業(yè)機(jī)器公司 |
| 主分類號: | G06F11/22 | 分類號: | G06F11/22 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 酆迅;辛鳴 |
| 地址: | 美國紐*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 確定 互連 控制器 之間 故障 位置 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本公開內(nèi)容涉及分布式計(jì)算機(jī)系統(tǒng),并且更具體地涉及針對分布式計(jì)算機(jī)系統(tǒng)的故障數(shù)據(jù)。
背景技術(shù)
計(jì)算機(jī)系統(tǒng)中的硬件和軟件部件的組合如今已經(jīng)發(fā)展至這樣的程度以使得這些計(jì)算機(jī)系統(tǒng)可以高度地可靠。可以通過使用冗余部件來提供計(jì)算機(jī)系統(tǒng)中的可靠性。例如,在一些計(jì)算機(jī)系統(tǒng)中,部件(比如節(jié)點(diǎn)控制器(這些節(jié)點(diǎn)控制器管理計(jì)算機(jī)系統(tǒng)的節(jié)點(diǎn)的硬件錯誤請求))是按冗余對(一個主節(jié)點(diǎn)控制器和一個冗余(備份)節(jié)點(diǎn)控制器)提供的。在這樣的主節(jié)點(diǎn)控制器故障時,冗余節(jié)點(diǎn)控制器接管主節(jié)點(diǎn)控制器的操作。冗余對也可以出于相同目的而用于系統(tǒng)控制器。節(jié)點(diǎn)控制器和系統(tǒng)控制器也可以被稱為服務(wù)處理器。服務(wù)處理器是在分布式計(jì)算機(jī)系統(tǒng)中的如下部件,該部件提供操作任務(wù),比如初始化、配置、運(yùn)行時錯誤檢測、診斷和糾正以及密切地監(jiān)視其它硬件部件的故障。
系統(tǒng)轉(zhuǎn)儲(dump)是冗余節(jié)點(diǎn)控制器的工作存儲器在具體時間(比如當(dāng)在冗余節(jié)點(diǎn)控制器上運(yùn)行內(nèi)的程序已經(jīng)確定失去與系統(tǒng)控制器的通信時)的記錄的狀態(tài)。第一故障數(shù)據(jù)捕獲(FFDC)是與由節(jié)點(diǎn)和/或系統(tǒng)控制器檢測到的某個錯誤有關(guān)的最小信息集合。調(diào)試轉(zhuǎn)儲數(shù)據(jù)是FFDC的超集合,并且它包括來自控制器的所有信息、包括可能不與具體錯誤調(diào)查直接有關(guān)的信息。在錯誤在節(jié)點(diǎn)之一中出現(xiàn)時,從主節(jié)點(diǎn)控制器立即捕獲對調(diào)試信息的轉(zhuǎn)儲以用于進(jìn)一步分析。然而,備份節(jié)點(diǎn)控制器僅如果主節(jié)點(diǎn)控制器故障并且因而備份節(jié)點(diǎn)控制器作為主節(jié)點(diǎn)控制器而接管則才可以變成了解錯誤。這一過程被稱為故障轉(zhuǎn)移。等待故障轉(zhuǎn)移過程完成以捕獲轉(zhuǎn)儲可能延遲對調(diào)試信息的轉(zhuǎn)儲并且負(fù)面地影響用于分析錯誤的能力。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例公開了一種用于確定在互連/控制器之間的故障的位置的方法、計(jì)算機(jī)程序產(chǎn)品和系統(tǒng)。該方法包括計(jì)算機(jī)在耦合到互連的多個節(jié)點(diǎn)同時收集調(diào)試信息。在收集調(diào)試信息之后,計(jì)算機(jī)分析同時收集的調(diào)試信息、由此確定互連的哪端引起故障。
附圖說明
圖1是圖示了根據(jù)本發(fā)明的一個實(shí)施例的包括服務(wù)器計(jì)算機(jī)的分布式計(jì)算機(jī)系統(tǒng)環(huán)境的功能框圖。
圖2是描繪了根據(jù)本發(fā)明的一個實(shí)施例的用于同步調(diào)試信息生成的在圖1的分布式計(jì)算機(jī)系統(tǒng)環(huán)境內(nèi)的部件的相互通信的數(shù)據(jù)流程圖。
圖3圖示了根據(jù)本發(fā)明的一個實(shí)施例的用于根據(jù)預(yù)定映射同步調(diào)試信息生成的場景的示例。
圖4描繪了根據(jù)本發(fā)明的一個實(shí)施例的圖1的服務(wù)器計(jì)算機(jī)的部件的框圖。
具體實(shí)施方式
在分布式計(jì)算機(jī)系統(tǒng)內(nèi)的正常操作期間,特定節(jié)點(diǎn)控制器可以檢測錯誤。該錯誤可以包括許多不同類型的故障,比如通信故障錯誤、應(yīng)用或者進(jìn)程故障錯誤、特定節(jié)點(diǎn)或者節(jié)點(diǎn)控制器操作的崩潰或者鎖定以及其它錯誤。在節(jié)點(diǎn)控制器檢測到在分布式計(jì)算機(jī)系統(tǒng)中的錯誤時,分布式計(jì)算機(jī)系統(tǒng)的資源嘗試存儲與該錯誤相關(guān)的錯誤信息以用于以后取回。分布式計(jì)算機(jī)系統(tǒng)監(jiān)視具有高優(yōu)先級的進(jìn)程、應(yīng)用和其它資源而保持那些資源始終可用于用戶和其它實(shí)體。分布式計(jì)算機(jī)系統(tǒng)可以運(yùn)用一個或者多個系統(tǒng)控制器,該一個或者多個系統(tǒng)控制器監(jiān)視分布式計(jì)算機(jī)系統(tǒng)的節(jié)點(diǎn)控制器和其它設(shè)備的操作并且管理節(jié)點(diǎn)控制器錯誤信息。在節(jié)點(diǎn)控制器檢測到錯誤時,該錯誤可能在分布式計(jì)算機(jī)系統(tǒng)內(nèi)引起通信故障。通信故障可能給系統(tǒng)控制器在取回節(jié)點(diǎn)控制器錯誤檢測信息時帶來挑戰(zhàn)。
在具有在分級架構(gòu)中配置的多個服務(wù)處理器的系統(tǒng)架構(gòu)中,在遇到任何錯誤條件時從多于一個服務(wù)處理器同時收集調(diào)試信息可以改進(jìn)錯誤分析。例如,如果節(jié)點(diǎn)內(nèi)互連經(jīng)歷故障,則沒有用于確定互連的哪端是故障的原因的可靠方法。同時從在其之間經(jīng)歷互連故障的節(jié)點(diǎn)二者上的服務(wù)處理器收集調(diào)試信息提供用于錯誤分析的附加數(shù)據(jù)。可以從收集同時調(diào)試信息受益的故障的另一示例是在節(jié)點(diǎn)控制器故障時。在這種情況出現(xiàn)時,主系統(tǒng)控制器不能與故障的節(jié)點(diǎn)控制器通信。從備份系統(tǒng)控制器和在經(jīng)歷故障的節(jié)點(diǎn)中的備份節(jié)點(diǎn)控制器二者同時收集故障數(shù)據(jù)可以是有益的。可以從收集同時調(diào)試信息受益的故障的又一示例是在主節(jié)點(diǎn)控制器難以訪問在節(jié)點(diǎn)內(nèi)的硬件時。這時,同時從主節(jié)點(diǎn)控制器和備份節(jié)點(diǎn)控制器二者收集的故障數(shù)據(jù)可以向系統(tǒng)管理員給予對錯誤的附加認(rèn)識。
本發(fā)明的實(shí)施例認(rèn)識到如果同時從所有涉及到的服務(wù)處理器(即節(jié)點(diǎn)控制器和系統(tǒng)控制器)捕獲第一故障數(shù)據(jù)捕獲(FFDC)和調(diào)試轉(zhuǎn)儲數(shù)據(jù)則可以改進(jìn)對在分布式計(jì)算機(jī)系統(tǒng)內(nèi)的錯誤的分析。本發(fā)明的實(shí)施例檢測在分布式計(jì)算機(jī)系統(tǒng)中的錯誤、確定從哪些服務(wù)處理器收集調(diào)試信息并且將數(shù)據(jù)聚合成單個報(bào)告。本發(fā)明的實(shí)施例的實(shí)現(xiàn)方式可以采用多種形式,并且隨后參照各圖討論示例性實(shí)現(xiàn)方式細(xì)節(jié)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機(jī)器公司;,未經(jīng)國際商業(yè)機(jī)器公司;許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410534359.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





