[發(fā)明專利]在并行計(jì)算機(jī)數(shù)據(jù)通信網(wǎng)絡(luò)中定位硬件故障的方法和設(shè)備有效
| 申請?zhí)枺?/td> | 200710005781.3 | 申請日: | 2007-02-13 |
| 公開(公告)號(hào): | CN101055536A | 公開(公告)日: | 2007-10-17 |
| 發(fā)明(設(shè)計(jì))人: | 查爾斯·J·阿徹;馬克·G·梅格瑞恩;約瑟夫·D·拉特曼;布賴恩·E·史密斯 | 申請(專利權(quán))人: | 國際商業(yè)機(jī)器公司 |
| 主分類號(hào): | G06F11/00 | 分類號(hào): | G06F11/00;G06F15/173 |
| 代理公司: | 北京市柳沈律師事務(wù)所 | 代理人: | 郭定輝;黃小臨 |
| 地址: | 美國紐*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 并行 計(jì)算機(jī) 數(shù)據(jù)通信 網(wǎng)絡(luò) 定位 硬件 故障 方法 設(shè)備 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理,更具體地,本發(fā)明涉及用于在并行計(jì)算機(jī)的數(shù)據(jù)通信網(wǎng)絡(luò)中定位硬件故障的方法、設(shè)備和產(chǎn)品。
背景技術(shù)
1948年的EDVAC計(jì)算機(jī)系統(tǒng)的開發(fā)經(jīng)常被引證為計(jì)算機(jī)時(shí)代的開端。從那時(shí)起,計(jì)算機(jī)系統(tǒng)已經(jīng)演化為極端復(fù)雜的裝置。現(xiàn)在的計(jì)算機(jī)比諸如EDVAC之類的早期系統(tǒng)復(fù)雜得多。計(jì)算機(jī)系統(tǒng)典型地包括硬件和軟件組成部分、應(yīng)用程序、操作系統(tǒng)、處理器、總線、存儲(chǔ)器、輸入/輸出裝置等等的組合。隨著半導(dǎo)體處理和計(jì)算機(jī)架構(gòu)的進(jìn)步促使計(jì)算機(jī)的性能不斷變強(qiáng),更加復(fù)雜的計(jì)算機(jī)軟件已經(jīng)演化來利用硬件的更高性能的優(yōu)點(diǎn),從而導(dǎo)致現(xiàn)在的計(jì)算機(jī)系統(tǒng)比數(shù)年之前要強(qiáng)大的多。
并行計(jì)算是經(jīng)歷了進(jìn)步的計(jì)算機(jī)技術(shù)領(lǐng)域。并行計(jì)算是在多個(gè)處理器上同時(shí)執(zhí)行相同的任務(wù)(分解和特殊適應(yīng)),以便更快地獲得結(jié)果。并行計(jì)算基于解決問題的處理通常可以被分為更小的任務(wù)這一事實(shí),可以根據(jù)一些諧調(diào)來同時(shí)執(zhí)行它們。
并行計(jì)算機(jī)執(zhí)行并行算法。可以將并行算法分解來在多個(gè)不同的處理裝置上一次執(zhí)行其一部分,然后在結(jié)束時(shí)將它們放回在一起(put?back?together)來獲得數(shù)據(jù)處理結(jié)果。某些算法容易分為多個(gè)部分。例如,通過將數(shù)字的子集分配給每個(gè)可用處理器,然后將正結(jié)果列表放回在一起,來完成分解檢查從1到10萬中所有的數(shù)來發(fā)現(xiàn)哪些數(shù)是素?cái)?shù)的工作。在本說明書中,將執(zhí)行并行程序的獨(dú)立部分的多處理裝置稱為‘計(jì)算節(jié)點(diǎn)’。并行計(jì)算機(jī)由計(jì)算節(jié)點(diǎn)和包括例如輸入/輸出(‘I/O’)節(jié)點(diǎn)和服務(wù)節(jié)點(diǎn)的其它處理節(jié)點(diǎn)組成。
由于現(xiàn)代化處理器工作的方式的緣故,而經(jīng)由并行算法比經(jīng)由串行(非并行)算法更快地執(zhí)行某些種類的大計(jì)算任務(wù),因此并行算法是非常有價(jià)值的。構(gòu)建具有單一快速處理器的計(jì)算機(jī)遠(yuǎn)比構(gòu)建具有多個(gè)慢處理器、但是具有相同吞吐量的計(jì)算機(jī)要難。還存在對于串行處理器的潛在速度的特定理論極限。另一方面,每個(gè)并行算法具有串行部分,所以并行算法具有飽和點(diǎn)。在該點(diǎn)之后,添加更多的處理器并不能獲得更大的吞吐量,而是僅僅增加開銷和成本。
還設(shè)計(jì)并行算法來在并行計(jì)算機(jī)的節(jié)點(diǎn)間優(yōu)化一個(gè)或多個(gè)資源的數(shù)據(jù)通信需求。存在兩種并行處理器通信的方式,共享存儲(chǔ)器或消息傳遞(passing)。共享存儲(chǔ)器處理需要用于數(shù)據(jù)的額外鎖存,并且強(qiáng)加額外的處理器和總線周期的開銷,并且還串行化算法的某些部分。
消息傳遞使用高速數(shù)據(jù)通信網(wǎng)絡(luò)和消息緩沖器,但是該通信增加數(shù)據(jù)通信網(wǎng)絡(luò)上的傳送開銷和需要額外的用于消息緩沖器的存儲(chǔ)器,以及節(jié)點(diǎn)之間的數(shù)據(jù)通信的延遲。雖然并行計(jì)算機(jī)的設(shè)計(jì)使用特殊設(shè)計(jì)的數(shù)據(jù)通信鏈路,使得通信開銷很小,但是并行算法決定通信量。
許多數(shù)據(jù)通信網(wǎng)絡(luò)架構(gòu)被用于并行計(jì)算機(jī)的節(jié)點(diǎn)間的消息傳遞。例如,可以將網(wǎng)絡(luò)中的計(jì)算節(jié)點(diǎn)組織為‘環(huán)狀(torus)’或‘網(wǎng)狀(mesh)’。此外,可以將網(wǎng)絡(luò)中的計(jì)算節(jié)點(diǎn)組織為樹。環(huán)狀網(wǎng)絡(luò)使用環(huán)繞鏈路連接在三維網(wǎng)狀結(jié)構(gòu)中的節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)通過該環(huán)狀網(wǎng)絡(luò)連接到其六個(gè)鄰居,而在網(wǎng)狀結(jié)構(gòu)中由其x、y、z坐標(biāo)尋址每個(gè)節(jié)點(diǎn)。在樹網(wǎng)絡(luò)中,將節(jié)點(diǎn)典型地連接到二元樹:每個(gè)節(jié)點(diǎn)具有父節(jié)點(diǎn)和兩個(gè)子節(jié)點(diǎn)(雖然根據(jù)硬件配置,某些節(jié)點(diǎn)可能僅有零或一個(gè)子節(jié)點(diǎn))。在使用環(huán)狀和樹網(wǎng)絡(luò)的計(jì)算機(jī)中,通常使用分離的路由電路、分離的物理鏈路和分離的消息緩沖器來相互獨(dú)立地實(shí)現(xiàn)兩個(gè)網(wǎng)絡(luò)。
環(huán)狀網(wǎng)絡(luò)在幾何上有助于點(diǎn)對點(diǎn)進(jìn)行診斷,但是樹網(wǎng)絡(luò)通常在點(diǎn)對點(diǎn)通信方面效率較低。然而,樹網(wǎng)絡(luò)對于其中所有計(jì)算節(jié)點(diǎn)同時(shí)參與的特定集合操作、消息傳遞操作提供高帶寬和低延遲。由于數(shù)千個(gè)節(jié)點(diǎn)可以參與并行計(jì)算機(jī)的集合操作,因此很難定位并行計(jì)算機(jī)的數(shù)據(jù)通信網(wǎng)絡(luò)中的硬件故障。
發(fā)明內(nèi)容
公開了用于定位并行計(jì)算機(jī)的數(shù)據(jù)通信網(wǎng)絡(luò)中的硬件故障的方法、設(shè)備和計(jì)算機(jī)程序。這樣的并行計(jì)算機(jī)包括多個(gè)計(jì)算節(jié)點(diǎn)和與計(jì)算節(jié)點(diǎn)耦合來進(jìn)行數(shù)據(jù)通信并將計(jì)算節(jié)點(diǎn)組織為樹的數(shù)據(jù)通信網(wǎng)絡(luò)。定位硬件故障包括:將下一計(jì)算節(jié)點(diǎn)標(biāo)識(shí)為父節(jié)點(diǎn)和父測試樹的根節(jié)點(diǎn);為父節(jié)點(diǎn)的每個(gè)子計(jì)算節(jié)點(diǎn)標(biāo)識(shí)具有將該子計(jì)算節(jié)點(diǎn)作為根節(jié)點(diǎn)的子測試樹;在父測試樹和每個(gè)子測試樹上運(yùn)行相同的測試套件(suite);和如果測試套件對父測試樹失敗,而對所有的子測試樹成功,則將父計(jì)算節(jié)點(diǎn)標(biāo)識(shí)為具有從該父計(jì)算節(jié)點(diǎn)連接到子計(jì)算節(jié)點(diǎn)的缺陷鏈接。
本發(fā)明的以上和其它目的、特征和優(yōu)點(diǎn)將從下面的本發(fā)明的示例性實(shí)施例的更加具體的描述中變得更加清楚,其中在附圖中圖解了這些實(shí)施例,并且在附圖中,相同的附圖標(biāo)記通常表示本發(fā)明的示例性實(shí)施例的相同部分。
附圖說明
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機(jī)器公司,未經(jīng)國際商業(yè)機(jī)器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710005781.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯(cuò)誤檢測;錯(cuò)誤校正;監(jiān)控
G06F11-07 .響應(yīng)錯(cuò)誤的產(chǎn)生,例如,容錯(cuò)
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時(shí)間期間內(nèi),通過測試作故障硬件的檢測或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過處理作錯(cuò)誤檢測、錯(cuò)誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過軟件的測試或調(diào)試防止錯(cuò)誤
- 簡單網(wǎng)絡(luò)管理協(xié)議設(shè)備的數(shù)據(jù)并行采集歸并方法及系統(tǒng)
- 減少EMI的并行數(shù)據(jù)傳輸方法
- 一種多媒體數(shù)據(jù)并行處理系統(tǒng)及方法
- 一種高速并行OQPSK解調(diào)時(shí)鐘的恢復(fù)系統(tǒng)
- 一種海量地震數(shù)據(jù)并行抽道集方法
- 3G協(xié)議的turbo碼并行譯碼方法及裝置
- 并行擴(kuò)展輸入輸出的教學(xué)裝置
- 數(shù)據(jù)的并行處理
- 并行式插件機(jī)
- 一種SPI總線與并行總線的橋接方法、設(shè)備、系統(tǒng)及介質(zhì)
- 雙桌面遠(yuǎn)程控制系統(tǒng)及方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 雙計(jì)算機(jī)系統(tǒng)
- 制導(dǎo)雷達(dá)計(jì)算機(jī)系統(tǒng)
- 一種服務(wù)部署方法及裝置
- 一種計(jì)算機(jī)集成系統(tǒng)及故障自動(dòng)切換方法
- 一種計(jì)算機(jī)信息安全監(jiān)控系統(tǒng)
- 混合型量子計(jì)算機(jī)架構(gòu)及其執(zhí)行計(jì)算任務(wù)的方法
- 靈活快速通信的方法及裝置
- 用于語音和消息收發(fā)的統(tǒng)一規(guī)則
- 無線通信設(shè)備和無線通信系統(tǒng)
- 數(shù)據(jù)通信方法和數(shù)據(jù)通信服務(wù)節(jié)點(diǎn)
- 數(shù)據(jù)通信方法、無人飛行器及控制端
- 數(shù)據(jù)通信網(wǎng)絡(luò)的配置方法
- 一種智能自組網(wǎng)技術(shù)
- 數(shù)據(jù)通信優(yōu)化方法及數(shù)據(jù)通信優(yōu)化器
- 基于邊緣計(jì)算的數(shù)據(jù)通信優(yōu)化系統(tǒng)及方法
- 一種數(shù)據(jù)通信方法、裝置、設(shè)備及介質(zhì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





