[發明專利]在并行計算機數據通信網絡中定位硬件故障的方法和設備有效
| 申請號: | 200710005781.3 | 申請日: | 2007-02-13 |
| 公開(公告)號: | CN101055536A | 公開(公告)日: | 2007-10-17 |
| 發明(設計)人: | 查爾斯·J·阿徹;馬克·G·梅格瑞恩;約瑟夫·D·拉特曼;布賴恩·E·史密斯 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F11/00 | 分類號: | G06F11/00;G06F15/173 |
| 代理公司: | 北京市柳沈律師事務所 | 代理人: | 郭定輝;黃小臨 |
| 地址: | 美國紐*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 并行 計算機 數據通信 網絡 定位 硬件 故障 方法 設備 | ||
1.一種定位并行計算機的數據通信網絡中的硬件故障的方法,該并行計算機包括多個計算節點和耦合用于數據通信的該多個計算節點并將該多個計算節點組織為樹的數據通信網絡,該方法包括針對并行計算機的多個分支計算節點重復執行下面的步驟:
將下一計算節點標識為父節點和父測試樹的根節點;
為該父節點的每個子計算節點標識具有將該子計算節點作為根節點的子測試樹;
在父測試樹和每個子測試樹上運行相同的測試套件;和
如果測試套件對父測試樹失敗,而對所有的子測試樹成功,則將父計算節點標識為具有從該父計算節點連接到子計算節點的缺陷鏈接。
2.如權利要求1所述的方法,還包括針對計算機中的多個分支計算節點重復執行該方法的步驟,直到測試套件對父計算節點失敗,而對所有父計算節點的子計算節點成功為止。
3.如權利要求1所述的方法,還包括:
針對該計算機中的所有分支計算節點重復執行該方法的步驟;和
記錄測試套件對父計算節點失敗,而對所有父計算節點的子計算節點成功的每一實例。
4.如權利要求1所述的方法,其中測試套件還包括集合操作,該集合操作還包括廣播操作、分散操作、收集操作、全收集操作、約簡操作和全約簡操作。
5.如權利要求1所述的方法,其中測試套件還包括在并行計算機上有效的所有集合操作。
6.如權利要求1所述的方法,其中對每個子測試樹上運行相同的測試套件還包括對所有的子測試樹上同時運行該測試套件。
7.如權利要求1所述的方法,還包括檢測樹網絡的數據通信失敗。
8.如權利要求1所述的方法,還包括標識從父計算節點連接的哪個鏈路是有缺陷的,其中該父計算節點被標識為具有從父計算節點連接到子計算節點的缺陷鏈路。
9.一種定位并行計算機的數據通信網絡中的硬件故障的設備,該并行計算機包括多個計算節點和耦合用于數據通信的該多個計算節點并將該多個計算節點組織為樹的數據通信網絡,該設備包括:
將下一計算節點標識為父節點和父測試樹的根節點的第一標識裝置;
為該父節點的每個子計算節點標識具有將該子計算節點作為根節點的子測試樹的第二標識裝置;
在父測試樹和每個子測試樹上運行相同的測試套件的測試裝置;和
如果測試套件對父測試樹失敗,而對所有的子測試樹成功,則將父計算節點標識為具有從該父計算節點連接到子計算節點的缺陷鏈接的第三標識裝置。
10.如權利要求9所述的設備,其中測試套件還包括集合操作,該集合操作還包括廣播操作、分散操作、收集操作、全收集操作、約簡操作和全約簡操作。
11.如權利要求9所述的設備,其中測試套件還包括在并行計算機上有效的所有集合操作。
12.如權利要求9所述的設備,其中對每個子測試樹上運行相同的測試套件還包括在對所有的子測試樹同時運行該測試套件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710005781.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:校正軌道高度位置誤差的方法
- 下一篇:空調機的室內機





