[發明專利]一種高性能計算應用特征的監控組織方法在審
| 申請號: | 201310489863.5 | 申請日: | 2013-10-18 |
| 公開(公告)號: | CN103501253A | 公開(公告)日: | 2014-01-08 |
| 發明(設計)人: | 劉羽;呂文靜;金蓮;于濤 | 申請(專利權)人: | 浪潮電子信息產業股份有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250014 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 性能 計算 應用 特征 監控 組織 方法 | ||
技術領域
本發明涉及計算機應用技術領域,具體地說是一種高性能計算應用特征的監控組織方法。
背景技術
隨著人類社會的不斷進步,科學技術的發展,人們不但對自然界的認識越來越廣泛,而且對未知世界探索的需求也越來越迫切。這就使得人類撐握的信息數據的量急劇性的增長,而與時同時,這些海量的信息數據都需要及時的分析和處理。例如,一個大型天文射電望遠鏡陣列一秒鐘就能產生100GB以上的宇宙微波數據,這些數據都需要及時得到分析;再如,在粒子物理研究領域,一臺大型強子對撞機一次對撞的數據也是以TB為單位來計量的;此外,像人類基因組工程、石油勘探、天氣預報等等領域也對計算能力提出了越來越高的要求。在這種大背景下數值計算已然成為了除實驗、理論分析之外的第三種極其重要的科學探索手段。正是基于這樣的現實,促使了當今世界各個科技強國都在不遺余力的大力發展超級計算機。如,在2012年1月發布的世界TOP500中,排名第一的橡樹嶺國家實驗室的“泰坦(Titan)”就已經達到了27PFlops的峰值速度,而與此同時新的百億億次超級計算機也已經在研究和規劃之中了。總的來說,基本上每十年,超級計算機的速度就提升三個量級(1000倍),因此建造超級計算機的能力已經成為一個國家科技水平和綜合國力的一個有力體現。
雖然超級計算機發展的速度是驚人的,也令人欣慰,但很遺憾的是與之相配套的軟件技術卻裹足不前,這已經嚴重的制約了超級計算機應用能力的發揮。現在絕大多數的應用軟件所基于的基本原理和數學算法,還是上世紀50~60年代提出和發展起來的,這些算法與當時的大型機是完全匹配和適應的,以串行或少量進程間并行為主。但經過50多年的發展,現在的超級計算機體系結構已經發生了翻天覆地的變化,動輒擁有幾十萬乃至上百萬的CPU核,而且還有相當一部分超級計算機是使用的混合異構(CPU+GPU/MIC等)的體系架構,這就使得早期的物理模型和數學算法力不從心、無法勝任。這就是現在絕大多數的應用軟件效率低下、可擴展性差的主要原因。此外,數以萬計的處理器協同工作,如何做到對它們運行性能的把控也是現在超大型集群所面臨的難題之一。
要破解現在的這些難題,一方面,我們應該大力研究和發展新的與現今超級計算機體系結構相匹配的物理模型和數學算法,這是突破現有瓶頸的終極手段,但這畢竟是一項極其困難的課題,無法在短時間內見到成效并實現大規模應用;另一方面,我們從歷史上繼承下來大量的優秀應用軟件,我們應著手研究這些海量應用軟件,合理的表征它們的運行特征,找出它們的性能瓶頸,最大限度的在現有平臺上發揮這些應用的性能,此外還能為應用性能的改進和突破提供有力的依據。因此,為這些應用軟件做性能分析以及優化將是高性能領域的重要環節。而這其中,如何合理、高效的監控和提取應用在運行時的特征就是本發明所要解決的主要問題。
從目前的情形來看,業界尚沒有一款免費的系統監測工具可以實時監測包括硬件系統微架構指標,如:CPI,實時內存帶寬,系統實時浮點計算量等,在內系統指標。且在其他的非微架構的指標中,現有監測工具的支持也不是很好,其中典型的例子是IB網絡(rdma)。此外,多數情況下利用其它監測工具無法靈活的滿足具體要求,如nmon無法滿足精確的多節點監控;Ganglia對于數據采集間隔及保存做的不是很好。因此,在這種情況下,本發明的意義就顯得十分的重要。
發明內容
本發明的目的是提供一種合理、快速、實時、高效的監控和提取高性能計算中系統及應用程序運行特征的方法,從而為快速、精確的定位應用程序對計算資源的需求量,最大限度的發揮和優化應用程序的性能提取基本的參數依據。此外,還為監控高性能系統硬件健康水平提供硬件級數據的有效有段。
本發明的目的是按以下方式實現的,依據高性能計算硬件平臺體系架構特點,以高性能計算的應用程序為準,將管理節點和計算節點劃分為監控的控制端和客戶端,控制端完成對客戶端的管理、數據接收、數據審查和入庫工作,客戶端接收并按照控制端的指令,在指定的時間間隔內完成對運行特征參數的采集工作并發送控制端,基本的分析、組織流程如下:
1)確定高性能計算集群中的計算節點,并在相應的計算節點上啟動監控的客戶端,客戶端也首先完成對相應硬件、系統環境的初始化工作,包括:硬件資源是否存在,是否可以正常獲取硬件訪問權限,如不能正常完成初始化操作,則應給出相應信息提示并退出,反之,進入正常就續狀態,在指定的端口監聽控制端指令;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮電子信息產業股份有限公司,未經浪潮電子信息產業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310489863.5/2.html,轉載請聲明來源鉆瓜專利網。





