[發明專利]節點性能檢測方法和裝置在審
| 申請號: | 202010016558.4 | 申請日: | 2020-01-08 |
| 公開(公告)號: | CN113094243A | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 劉志杰 | 申請(專利權)人: | 北京小米移動軟件有限公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34 |
| 代理公司: | 北京名華博信知識產權代理有限公司 11453 | 代理人: | 姜超 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 節點 性能 檢測 方法 裝置 | ||
本公開是關于一種節點性能檢測方法和裝置。涉及分布式計算領域,解決了缺乏對分布式計算系統性能分析機制的問題。該方法包括:獲取集群中各節點的歷史任務的運行數據;分析所述歷史任務的運行數據;根據分析結果,確定各節點的性能。本公開提供的技術方案適用于分布式計算節點集群性能探測,實現了低成本、高效率、準確的節點性能檢測。
技術領域
本公開涉及分布式計算領域,尤其涉及一種節點性能檢測方法和裝置。
背景技術
在大規模分布式計算服務中,計算節點集群的規模可達到數千臺物理機或虛擬機,所有的計算服務運行在各節點上。但由于節點性能參差不齊,在分布式計算服務中,雖已經為宕機節點配置了容錯能力,但是也受到木桶理論的限制,用戶作業(job)最終的運行時間取決于計算任務所有拆分任務(task)中運行時間最長的task所消耗的時間。在某此task運行時間過長的情況下,無法在短時間內快速定位影響性能、導致任務運行慢的原因,也無法自動且準確的探測確定異常節點。雖然通過基本硬件健康信息或者系統日志能夠判斷發生異常的位置,但由于集群眾多,且機器機型差異性也比較大,無法統一硬件信息檢查的入口,因此探測成本非常高。且很多情況下探測結果表明機器系統日志及硬件并沒有異常,但是性能確實存在問題(可能由于硬件老化等其他原因造成)。
綜上,缺乏對分布式計算服務性能進行分析的有效機制。
發明內容
為克服相關技術中存在的問題,本公開提供一種用于分布式計算系統中的節點性能檢測方法和裝置。
根據本公開實施例的第一方面,提供一種用于分布式計算系統中的節點性能檢測方法,包括:
獲取集群中各節點的歷史任務的運行數據;
分析所述歷史任務的運行數據;
根據分析結果,確定各節點的性能。
優選的,所述獲取集群中各節點的歷史任務的運行數據的步驟包括:
周期性的獲取集群中各節點的歷史任務的運行數據。
優選的,所述歷史任務的運行數據包括任務指標數據和任務明細數據;
其中,所述任務指標數據至少包括以下數據中的任一或任意多項:
所述歷史任務的數量、歷史任務的類型、各類型的歷史任務的平均運行時間,一個類型的歷史任務的平均運行時間為該類型的所述歷史任務的總運行時間/該類型的所述歷史任務的個數;
所述任務明細數據至少包括以下數據中的任一或任意多項:
執行所述歷史任務的節點的身份信息、各個歷史任務的運行時間;
所述分析所述歷史任務的運行數據的步驟包括:
確定各歷史任務的實際超發倍數,所述實際超發倍數為:
該所述歷史任務的運行時間/所述歷史任務的平均執行時間;
遍歷分析所述歷史任務,從中篩選出實際超發倍數超過預設的標準超發倍數的歷史任務;
當所述歷史任務的實際超發倍數大于所述標準超發倍數時,確定執行所述歷史任務的節點為所述歷史任務的實際執行節點;
針對每個實際超發倍數超過預設的標準超發倍數的所述歷史任務生成超發記錄;
所述超發記錄至少包括以下信息:
所述歷史任務的實際執行節點,該所述歷史任務的實際超發倍數。
優選的,所述根據分析結果,確定各節點的性能的步驟包括:
對所生成的所有超發記錄進行處理,確定每個節點作為實際執行節點出現的頻次和平均超發倍數,得到分析信息,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米移動軟件有限公司,未經北京小米移動軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010016558.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種輸電線路分布式故障監測終端的防滑裝置
- 下一篇:一種兒童思維訓練用機器人





