[發(fā)明專(zhuān)利]一種內(nèi)核故障收集方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201810502472.5 | 申請(qǐng)日: | 2018-05-23 |
| 公開(kāi)(公告)號(hào): | CN108762999A | 公開(kāi)(公告)日: | 2018-11-06 |
| 發(fā)明(設(shè)計(jì))人: | 常現(xiàn)超 | 申請(qǐng)(專(zhuān)利權(quán))人: | 鄭州云海信息技術(shù)有限公司 |
| 主分類(lèi)號(hào): | G06F11/22 | 分類(lèi)號(hào): | G06F11/22;G06F11/273 |
| 代理公司: | 濟(jì)南舜源專(zhuān)利事務(wù)所有限公司 37205 | 代理人: | 張亮 |
| 地址: | 450000 河南省鄭州市*** | 國(guó)省代碼: | 河南;41 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 內(nèi)核 故障收集 進(jìn)程調(diào)度 掛起 故障信息收集 串口傳輸 定位故障 發(fā)生故障 故障日志 進(jìn)程收集 快速定位 快速恢復(fù) 內(nèi)核啟動(dòng) 信息收集 嚴(yán)重故障 運(yùn)行故障 保留 操作系統(tǒng) 服務(wù)器 登錄 分析 進(jìn)程 保證 | ||
本發(fā)明提供了一種內(nèi)核故障收集方法及裝置,當(dāng)K?UX內(nèi)核啟動(dòng)時(shí),預(yù)先保留一顆CPU核,該CPU核僅運(yùn)行故障信息收集進(jìn)程并且不參與進(jìn)程調(diào)度,當(dāng)K?UX內(nèi)核發(fā)生嚴(yán)重故障或者硬件發(fā)生故障時(shí),操作系統(tǒng)被掛起,內(nèi)核無(wú)法進(jìn)行進(jìn)程調(diào)度,除了保留的CPU核外其他CPU核都被掛起,系統(tǒng)無(wú)法登錄進(jìn)去時(shí),通過(guò)故障信息收集進(jìn)程收集故障日志并通過(guò)串口傳輸,快速定位問(wèn)題,快速地分析故障的原因并定位故障,找到解決故障方法,本發(fā)明能夠保證服務(wù)器上的業(yè)務(wù)能夠快速恢復(fù),減少損失。
技術(shù)領(lǐng)域
本發(fā)明涉及服務(wù)器的技術(shù)領(lǐng)域,具體涉及一種內(nèi)核故障收集方法及裝置。
背景技術(shù)
隨著客戶(hù)業(yè)務(wù)需求不斷增大,服務(wù)器的性能必須不斷增加,服務(wù)器的硬件配置也不斷提升,如CPU可能達(dá)到千核以上、內(nèi)存達(dá)到TB以上。服務(wù)器硬件增加的同時(shí)也提升了故障率,操作系統(tǒng)也越來(lái)越復(fù)雜,隨著硬件的增加,驅(qū)動(dòng)程序也相應(yīng)的增加,引入的BUG也會(huì)越來(lái)越多。當(dāng)服務(wù)器發(fā)生故障的時(shí)候,必須快速的分析故障原因并找到解決方案,就需要保存或者獲取相應(yīng)的數(shù)據(jù)進(jìn)行分析,尤其是當(dāng)服務(wù)器上部署關(guān)鍵業(yè)務(wù)的時(shí)候,快速地解決問(wèn)題將給客戶(hù)減少經(jīng)濟(jì)損失,保證業(yè)務(wù)快速恢復(fù)。
現(xiàn)有技術(shù)中,通常的故障收集方法為在服務(wù)器上安裝K-UX操作系統(tǒng)并運(yùn)行,正常情況下K-UX操作系統(tǒng)運(yùn)行在K-UX內(nèi)核中,當(dāng)發(fā)生嚴(yán)重故障的時(shí)候,K-UX內(nèi)核掛起,然后啟動(dòng)Crash內(nèi)核(Crash內(nèi)核:一個(gè)小的Linux內(nèi)核,主要用于將K-UX內(nèi)核的內(nèi)存數(shù)據(jù)保存到磁盤(pán));Crash內(nèi)核將K-UX內(nèi)核使用的內(nèi)存數(shù)據(jù)保存到磁盤(pán)上,以便下次重啟后分析定位問(wèn)題;Crash內(nèi)核收集完K-UX內(nèi)核內(nèi)存信息后,重啟系統(tǒng)進(jìn)去BIOS中,BIOS開(kāi)始進(jìn)行硬件初始化等操作,BIOS最后階段開(kāi)始加載K-UX內(nèi)核啟動(dòng)系統(tǒng);進(jìn)入K-UX系統(tǒng)后,分析crash內(nèi)核保存到磁盤(pán)上內(nèi)存數(shù)據(jù)(如附圖4所示)。現(xiàn)有技術(shù)的缺點(diǎn)為:1、需要用戶(hù)配置crash內(nèi)核,并分配內(nèi)存,浪費(fèi)一定的內(nèi)存空間;2、保存內(nèi)存數(shù)據(jù)需要大量磁盤(pán)空間,浪費(fèi)磁盤(pán)空間;3、很多用戶(hù)在安裝K-UX時(shí)候沒(méi)有配置crash內(nèi)核,給后續(xù)定位問(wèn)題帶來(lái)很大難度。
發(fā)明內(nèi)容
基于上述問(wèn)題,本發(fā)明提出了一種內(nèi)核故障收集方法及裝置,快速的分析故障的原因并定位故障。
本發(fā)明提供如下技術(shù)方案:
一方面,本發(fā)明提供了一種內(nèi)核故障收集方法,包括:
步驟101,監(jiān)測(cè)K-UX內(nèi)核和/或硬件是否故障以及系統(tǒng)是否被掛起;
步驟102,預(yù)先保留CPU核,所述CPU核獨(dú)立運(yùn)行故障日志收集進(jìn)程,若K-UX內(nèi)核和/或硬件故障,則所述故障日志收集進(jìn)程收集日志;其中,所述CPU核不參與進(jìn)程調(diào)度;
步驟103,通過(guò)串口獲取故障日志信息,分析故障系統(tǒng)的內(nèi)存信息,定位故障。
其中,所述定位故障之后還包括解決故障,恢復(fù)服務(wù)器正常運(yùn)行。
其中,所述故障系統(tǒng)為K-UX系統(tǒng)或硬件系統(tǒng)。
其中,所述K-UX內(nèi)核故障包括空指針、數(shù)組越界、軟死鎖、硬死鎖至少之一;所述硬件故障包括磁盤(pán)扇區(qū)無(wú)法讀寫(xiě)、CPU核無(wú)法正常工作至少之一。
另外,本發(fā)明還提供了一種內(nèi)核故障收集裝置,所述裝置包括:
監(jiān)測(cè)模塊,用于監(jiān)測(cè)K-UX內(nèi)核和/或硬件是否故障以及系統(tǒng)是否被掛起;
收集模塊,用于預(yù)先保留CPU核,所述CPU核獨(dú)立運(yùn)行故障日志收集進(jìn)程,若K-UX內(nèi)核和/或硬件故障,則所述故障日志收集進(jìn)程收集日志;其中,所述CPU核不參與進(jìn)程調(diào)度;定位模塊,用于通過(guò)串口獲取故障日志信息,分析故障系統(tǒng)的內(nèi)存信息,定位故障。
其中,所述定位故障之后還包括解決故障,恢復(fù)服務(wù)器正常運(yùn)行。
其中,所述故障系統(tǒng)為K-UX系統(tǒng)或硬件系統(tǒng)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于鄭州云海信息技術(shù)有限公司,未經(jīng)鄭州云海信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810502472.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯(cuò)誤檢測(cè);錯(cuò)誤校正;監(jiān)控
G06F11-07 .響應(yīng)錯(cuò)誤的產(chǎn)生,例如,容錯(cuò)
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時(shí)間期間內(nèi),通過(guò)測(cè)試作故障硬件的檢測(cè)或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過(guò)處理作錯(cuò)誤檢測(cè)、錯(cuò)誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過(guò)軟件的測(cè)試或調(diào)試防止錯(cuò)誤
- 一種故障信息收集系統(tǒng)及方法
- 通信設(shè)備的故障信息收集方法以及通信設(shè)備和系統(tǒng)
- 故障信息的處理方法和裝置
- 一種故障信息的收集方法、系統(tǒng)及醫(yī)療設(shè)備
- 設(shè)備故障反饋系統(tǒng)及方法
- 一種多節(jié)點(diǎn)服務(wù)器系統(tǒng)的故障現(xiàn)場(chǎng)信息的收集方法及裝置
- 故障信息收集方法、裝置及系統(tǒng)
- 通信設(shè)備軟件故障檢測(cè)收集恢復(fù)方法和系統(tǒng)
- 一種基于linux自動(dòng)化收集BMC故障信息的方法
- 一種基于集群日志的反饋式節(jié)點(diǎn)故障處理方法及系統(tǒng)
- 一種嵌入式實(shí)時(shí)系統(tǒng)進(jìn)程均衡調(diào)度方法
- 一種計(jì)算機(jī)多進(jìn)程公平調(diào)度的方法
- 并行處理系統(tǒng)
- 一種操作系統(tǒng)進(jìn)程調(diào)度算法
- 一種進(jìn)程調(diào)度方法及裝置
- 一種基于動(dòng)態(tài)監(jiān)測(cè)的進(jìn)程優(yōu)化調(diào)度方法
- 批量業(yè)務(wù)進(jìn)程監(jiān)控方法、裝置、計(jì)算機(jī)及可讀存儲(chǔ)介質(zhì)
- 一種調(diào)度進(jìn)程的管理方法和裝置
- 一種任務(wù)調(diào)度方法、裝置及調(diào)度服務(wù)器
- 進(jìn)程調(diào)度管理方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)





