[發明專利]一種異常容器實時檢測方法有效
| 申請號: | 201911049192.4 | 申請日: | 2019-10-31 |
| 公開(公告)號: | CN110874291B | 公開(公告)日: | 2022-10-21 |
| 發明(設計)人: | 朱之凱;常峰;鄭歆慰;褚海濤;劉海峰 | 申請(專利權)人: | 北京中科云腦智能技術有限公司;合肥中科類腦智能技術有限公司 |
| 主分類號: | G06F11/14 | 分類號: | G06F11/14;G06F9/455 |
| 代理公司: | 北京知聯天下知識產權代理事務所(普通合伙) 11594 | 代理人: | 張陸軍;張迎新 |
| 地址: | 100000 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 異常 容器 實時 檢測 方法 | ||
本發明公開了一種異常容器實時檢測方法,包括:歸納容器的異常情況;對所述容器的異常情況進行分類;檢測所述容器的異常情況,并執行以下處理步驟,所述處理步驟包括:若發現某個容器有異常狀況,則讀取日志,并獲取該異常容器的相關信息;根據所述異常容器的相關信息,隔離所述異常容器占用的資源。一種異常容器實時檢測方法能夠在第一時間檢測是否出現異常容器,并確定異常容器的位置,通過及時隔離,減少服務器因資源的問題而產生沖突,進一步提高用戶的服務體驗。
技術領域
本發明屬于容器計算檢測技術領域,特別涉及一種異常容器實時檢測方法。
背景技術
隨著容器技術的發展成熟,基于容器技術的云計算系統即容器云已經開始逐步的取代傳統的基于虛擬機的云計算系統。由于容器具有輕量化的特點,容器的部署更加便捷。因而容器云內部組成相比于傳統云計算平臺更加復雜。其次容器對系統各項資源的隔離相較于虛擬機來說不強,而同一臺物理主機上運行多個容器,容器間的干擾相對較為強烈,因此一旦容器云內部某個容器發生異常,異常將迅速傳播,進而影響到整個集群。而由于容器云復雜的內部環境,對于傳統基于單組件的異常檢測方法已經不適用于分布式容器云環境。現有技術采用性能指標對異常進行分析,增加了數據采集的開銷,同時需要構造正常的波動模型,對于波動頻繁且復雜的容器云平臺來說準確率較低且缺乏實時性。
并且在容器在運行代碼的過程中,難免會因為一些系統的問題產生異常狀態的進程,影響了資源釋放的過程。為此需要一種能快速檢測到容器異常,并將異常容器隔離的方法。
發明內容
針對上述問題,本發明提供了一種異常容器實時檢測方法,包括:
歸納容器的異常情況;
對所述容器的異常情況進行分類;
檢測所述容器的異常情況,并執行以下處理步驟,所述處理步驟包括:
若發現某個容器有異常狀況,則讀取日志,并獲取該異常容器的相關信息;
根據所述異常容器的相關信息,隔離所述異常容器占用的資源。
優選的,所述檢測所述容器異常情況具體為:
通過監控服務器實時檢測容器異常情況。
優選的,所述發現某個容器異常狀況,則讀取日志,并獲取該異常容器的相關信息具體為:
若監控服務器發現某個容器異常情況,由監控服務器讀取日志,獲取該異常容器的相關信息。
優選的,所述異常容器相關信息包括異常容器的宿主機地址、異常容器占用的GPU資源。
優選的,所述根據所述異常容器的相關信息,隔離所述異常容器占用的資源具體為:
通過AlertManager系統將異常容器的相關信息反饋給系統管理員,由系統管理員隔離相關資源。
優選的,所述相關資源包括所述異常容器占用的GPU資源。
優選的,還包括:
隔離異常容器相關資源后,若服務器能在預定時間內運行完代碼,則在完成任務時自動隔離資源;
若服務器無法在預定時間內完成代碼運行,則立刻隔離資源。
優選的,還包括:
隔離所有資源后,啟動服務器重啟機制,消除異常容器。
本發明能夠在第一時間檢測是否出現異常容器,并確定異常容器的位置,通過及時隔離,減少服務器因資源的問題而產生沖突,進一步提高用戶的服務體驗。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科云腦智能技術有限公司;合肥中科類腦智能技術有限公司,未經北京中科云腦智能技術有限公司;合肥中科類腦智能技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911049192.4/2.html,轉載請聲明來源鉆瓜專利網。





