[發明專利]一種基于IPMI的冗余計算機系統節點故障主被動檢測方法有效
| 申請號: | 201310634139.7 | 申請日: | 2013-12-01 |
| 公開(公告)號: | CN103617104B | 公開(公告)日: | 2017-01-04 |
| 發明(設計)人: | 徐振朋;翟永寧;殷進勇;楊光年;李韋韋;吳茂傳;蘇培培;樓智翔;董奇;史小犇 | 申請(專利權)人: | 中國船舶重工集團公司第七一六研究所 |
| 主分類號: | G06F11/22 | 分類號: | G06F11/22;G06F11/07 |
| 代理公司: | 南京理工大學專利中心32203 | 代理人: | 馬魯晉 |
| 地址: | 222006 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ipmi 冗余 計算機系統 節點 故障 被動 檢測 方法 | ||
1.一種基于IPMI的冗余計算機系統節點故障主被動檢測方法,其特征在于:包括以下步驟:
步驟1、在所有待測計算機上部署并啟用IPMI功能模塊,并通過標準RJ45接口或串行接口與故障檢測模塊相連接;所有待測計算機構成冗余備份系統;
步驟2、通過IPMI協議周期性地收集上述冗余系統中主備計算機節點的運行狀態信息序列p,所述狀態信息包括CPU、風扇、內存和部件狀態數據;
步驟3、對步驟2采集到的狀態信息序列p進行分析,通過模式匹配方法分別對主備計算機節點的運行狀態進行故障判定,即故障被動檢測;
步驟4、在給定的系統參數值的前提下,通過對主用計算機節點故障進行預測,即故障主動檢測,確定在何時對上述冗余系統實施主動式的主備切換。
2.根據權利要求1所述的基于IPMI的冗余計算機系統節點故障主被動檢測方法,其特征在于,步驟1中所述故障檢測模塊是采用FPGA實現的邏輯功能模塊。
3.根據權利要求1所述的基于IPMI的冗余計算機系統節點故障主被動檢測方法,其特征在于,步驟3中對步驟2采集到的狀態信息序列進行分析,通過模式匹配方法對主備計算機節點的運行狀態進行故障判定,具體為:
步驟3-1、對于系統預置樣本庫Q中的某個樣本序列q和采集到的待測計算機狀態序列p,q∈Q,對序列p和q進行平均線性分段,得到N個子序列,N為自然數;對于各子序列中相鄰兩點確定的線段,確定各線段對應的斜率值和斜率反正切值;
步驟3-2、擬合各子序列中斜率反正切值相近的連續線段,得到其擬合變換后的斜率反正切值序列Hp[1…trp,1...N]和Hq[1...trq,1...N],其中trp為序列p第r個子序列的線段數目;對于某一個子序列r,r∈[1,N],其對應線段擬合變換的具體步驟為:
(a)將n初始為1,即n=1;
(b)確定子序列r中第n條線段與第n+1條線段的斜率反正切值之差h=H[n,r]-H[n+l,r],以判定兩條線段間的斜率反正切值的相似程度,其中H[n,r]表示子序列r中第n條線段的斜率反正切值,H[n,r]∈Hp[1...tx,1...N]或H[n,r]∈Hq[1...tx,1...N];
(c)對斜率反正切值之差h進行判斷,若|h|>=ε,則n=n+1,轉到步驟(b),直到完成遍歷子序列r中所有的線段;若|h|<ε,利用一元線性回歸函數,確定出序列r中第n條線段和第n+1條線段對應擬合線段的斜率值R,之后執行步驟(d);ε為判定閾值;
(d)更新擬合變換后的斜率反正切值序列,以arctan(R)取代子序列r中第n條線段的斜率反正切值H[n,r],即H[n,r]=arctan(R),并將子序列r中第n+1條線段對應橫坐標跨度并入第n條線段的橫坐標跨度;
(e)刪除子序列r中第n+1條線段,轉到步驟(b),直到完成遍歷子序列r中所有的線段;
步驟3-3、重復步驟3-1和步驟3-2,確定序列p與樣本庫Q中所有樣本序列相匹配的子序列數;對于某個樣本序列q,q∈Q,確定序列p與q相匹配的子序列數的具體步驟為:
(1)設定偏離誤差β>0;用E(q)表示序列p與樣本序列q之間匹配的子序列數,E(q)初始為0;
(2)若q為故障狀態的樣本序列,F(q)=1;若q為非故障狀態的樣本序列,F(q)=0;
(3)確定序列p與樣本序列q之間匹配的子序列數E(q),具體為:比較序列p和序列q的N個子序列,如果子序列中的線段數不等,則匹配子序列數不增加;如果子序列中的線段數相等,進一步確定出子序列對應線段間的偏差,如果平均偏差小于允許的偏離誤差β,即則與序列p匹配的子序列數E(q)加1;
(4)如果沒有完成遍歷樣本庫Q中的所有樣本序列,取下一個尚未遍歷的樣本序列賦值給q,轉到步驟3-1;
步驟3-4、依據匹配子序列數E(x),確定序列p在樣本庫Q中的m個近鄰,具體為:確定序列p的m個近鄰x1,x2,...,xm,m>0為近鄰數,具體為:按照序列p與樣本序列匹配子序列數量的大小,降序排列樣本序列,取出前m個值對應的樣本序列,則E(xk)(1≤k≤m)表示近鄰與序列p之間匹配的子序列數;
步驟3-5、對序列p進行的故障判定,具體為:對序列p進行的故障判定,具體為:用a表示近鄰中類別為故障狀態的樣本序列的數量,用b表示近鄰中類別為無故障狀態的樣本序列的數量,a+b=m,對于F(xi)=1、F(xj)=0,如果且成立,判定對應序列p的待測計算機為故障狀態,否則判定對應序列p的待測計算機為無故障狀態。
4.根據權利要求1所述的基于IPMI的冗余計算機系統節點故障主被動檢測方法,其特征在于,步驟4中在給定系統參數值的前提下對主用計算機節點故障進行預測具體為:
步驟4-1、利用主用計算機節點運行故障預測的數學模型f(x)進行預測:
式中,γ為主備計算機節點的故障事件概率,C為主動式的主備切換過程中引入系統開銷的常量因子,C>0;α為被動式的主備切換過程中引入系統開銷的線性因子,其合理區間為[0,1];L為被動式的主備切換過程中引入系統開銷的常量因子,L>0;
步驟4-2、將給定的主備計算機節點的故障事件概率γ、被動式的主備切換過程中引入系統開銷的線性因子α、被動式的主備切換過程中引入系統開銷的常量因子L和主動式的主備切換過程中引入系統開銷的常量因子C的具體數值帶入到主用計算機節點運行故障預測的數學模型f(x)中,并求解滿足下式的x:
即可以確定主用計算機節點每間隔x時間段對冗余系統實施一次主動式的主備切換。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國船舶重工集團公司第七一六研究所,未經中國船舶重工集團公司第七一六研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310634139.7/1.html,轉載請聲明來源鉆瓜專利網。





