[發明專利]一種高性能應用運行狀態預測和監控方法、設備和裝置在審
| 申請號: | 202010154757.1 | 申請日: | 2020-03-08 |
| 公開(公告)號: | CN111352820A | 公開(公告)日: | 2020-06-30 |
| 發明(設計)人: | 李龍翔;劉羽;楊振宇;于占樂;王倩 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34;G06F40/30;G06F40/205;G06F40/289;G06F9/48;G06N20/00 |
| 代理公司: | 北京連和連知識產權代理有限公司 11278 | 代理人: | 楊帆 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 性能 應用 運行 狀態 預測 監控 方法 設備 裝置 | ||
本發明提供一種高性能應用運行狀態預測和監控方法、設備和裝置,該方法包括以下步驟:收集目標平臺運行中產生的系統日志和作業日志,將所述系統日志和作業日志中的消息按照時間進行排序并將其時間相同的條目進行對應后保存為中間數據文件;采用數據挖掘中的自然語義處理工具對所述中間數據文件的關鍵信息進行提取,并將所述提取的關鍵信息中的文字信息用相應的數字特征向量進行標記;通過經由機器學習算法訓練過的模型對所述中間數據文件中的數字、時間和所述數字特征向量標記后的文本信息分別進行分析,并基于分析結果對應用運行狀態進行判斷。本發明可以實時提供應用運行狀態,提高平臺計算資源利用率,減少用戶計算任務排隊等待時間。
技術領域
本發明涉及計算機領域,并且更具體地,涉及一種高性能應用運行狀態預測和監控方法、設備和裝置。
背景技術
高性能或超級計算(HPC)集群是一種具有超大計算性能與規模的計算機,這種計算集群上運行的程序一般使用并行算法,通過將計算任務劃分為許多小問題的方式來解決復雜的計算問題。隨著不同應用對計算需求逐漸增加,越來越多計算應用開始采用高性能計算機進行求解。準確判斷應用運行狀況,預測應用運行時間等,在維護高性能集群時具有重要作用,可以有效提高平臺運行效率,減少用戶排隊等待時間,提高用戶體驗。但是在云計算或超算平臺日常運行時,由于高性能計算機的規模越來越大,維護這些計算機正常運行的挑戰也越來越大。維護的困難不僅在于系統每時每刻都在產生的大量的同步數據,而且分析這些數據以獲得有關系統運行狀況的有用信息也變得困難。此外,由于不同的應用在運行時會有海量的信息產生,如不同的作業日志和應用日志等,因此使用傳統的人工方法判斷應用運行狀態時,需要人員具有一定超算和應用的基礎知識。但是人工方法無法及時分析平臺產生的海量數據,因此無法及時判斷當前平臺不同節點上應用的運行情況。
目前提供系統自動化運維工具已有很多,比較成熟的方案包括基于統計學方法和機器學習方法等方案。在基于統計學方法中,通過對測試數據進行測試,給出異常分數,如果異常分數高于一個閾值,則認為是異常點。該方法在設置恰當的閾值以及調整好參數的前提下,可以提供較準確的預測。但是,該基于統計學的異常檢測方法,雖然在設置恰當的閾值以及調整好參數的前提下,可以提供較準確的預測,但是閾值以及參數的調試是非常困難。此外每個變量都假設是滿足統計分布的,大多數訓練方案也依賴于一個假設過程,在實際應用過程中與限制不符。
第二類屬于基于機器學習的方法,主要包括分類算法和聚類算法。其中,分類算法是一種有監督的機器學習算法,其必要前提是訓練集包含的分類數據所屬類別是已知的。而聚類算法是一種無監督的機器學習算法,通常是基于距離對樣本數據進行聚類,識別出異常點,但此種方法存在對訓練樣本中未出現的故障無法預警的缺陷。目前已有機器學習方法來輔助進行系統異常檢測,這些方法大部分都是針對單一日志文件進行分析。在高性能應用運行過程中,程序的正常運行依賴于平臺操作系統、作業調度系統和應用三個部分正常運行。僅使用單一日志文件無法綜合判別應用運行狀態。
發明內容
鑒于此,本發明實施例的目的在于提出一種高性能應用運行狀態預測和監控方法、設備和裝置,通過結合數據挖掘與機器學習,實現對高性能應用運行過程中不同級別的日志文件進行實時分析,以提高高性能平臺的任務調度和利用率。
基于上述目的,本發明實施例的一方面提供了一種高性能應用運行狀態預測和監控方法,包括以下步驟:
收集目標平臺運行中產生的系統日志和作業日志,將所述系統日志和作業日志中的消息按照時間進行排序并將其時間相同的條目進行對應后保存為中間數據文件;
采用數據挖掘中的自然語義處理工具對所述中間數據文件的關鍵信息進行提取,并將所述提取的關鍵信息中的文字信息用相應的數字特征向量進行標記;
通過經由機器學習算法訓練過的模型對所述中間數據文件中的數字、時間和所述數字特征向量標記后的文本信息分別進行分析,并基于分析結果對應用運行狀態進行判斷。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010154757.1/2.html,轉載請聲明來源鉆瓜專利網。





