[發(fā)明專利]高性能計算機系統(tǒng)中不滿足計算精度要求的結(jié)點檢測方法有效
| 申請?zhí)枺?/td> | 201210041912.4 | 申請日: | 2012-02-23 |
| 公開(公告)號: | CN102646060A | 公開(公告)日: | 2012-08-22 |
| 發(fā)明(設(shè)計)人: | 劉杰;遲利華;胡慶豐;徐涵;晏益慧;龔春葉;楊博;趙文聞 | 申請(專利權(quán))人: | 中國人民解放軍國防科學(xué)技術(shù)大學(xué) |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 國防科技大學(xué)專利服務(wù)中心 43202 | 代理人: | 郭敏 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 性能 計算機系統(tǒng) 不滿足 計算 精度 要求 結(jié)點 檢測 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種高性能計算機系統(tǒng)中不滿足計算精度要求的問題結(jié)點檢測方法,尤指基于并行程序的加載運行,能夠快速定位不能滿足用戶計算精度問題要求的計算結(jié)點的檢測方法。
背景技術(shù)
高性能計算機系統(tǒng)計算精度問題指用戶并行應(yīng)用程序在高性能計算機系統(tǒng)上的計算精度不能滿足用戶需求的問題,是由于少數(shù)計算結(jié)點的計算精度錯誤或結(jié)點間的連接引起的問題。
高性能計算機系統(tǒng)結(jié)構(gòu)復(fù)雜,計算精度涉及用戶程序運行結(jié)果的可信度,是用戶首先關(guān)心的問題。計算精度既涉及單機運算,也涉及多機協(xié)同計算;既和計算結(jié)點相關(guān),也和通信網(wǎng)絡(luò)相關(guān);既需要MPI(Message?Passing?Interface)并行環(huán)境,也需要OpenMP共享計算環(huán)境或CUDA(Compute?Unified?Device?Architecture)等其他并行計算環(huán)境;既要考慮串行編譯器的影響,又要考慮MPI、OpenMP和CUDA等并行編譯的影響;既涉及本地多級存儲結(jié)構(gòu),又涉及遠地存儲結(jié)構(gòu)。計算結(jié)果的精度對高性能計算機系統(tǒng)是否具有可用性至關(guān)重要。
目前對計算精度的研究主要集中在提高計算精度的方法,如頂層設(shè)計提高計算精度方法,為避免舍入誤差造成模擬計算的不可靠性,從應(yīng)用軟件角度必須研究高精度偏微分離散格式和求解方法,盡量減少截斷誤差,并從程序設(shè)計角度對算術(shù)運算精度要求敏感的核心部分考慮采用高于64位的浮點運算,從系統(tǒng)研制角度則必須考慮對超64位字長的算術(shù)運算的支持。從應(yīng)用和系統(tǒng)設(shè)計著手提高計算精度,如果系統(tǒng)出現(xiàn)互連網(wǎng)絡(luò)等系統(tǒng)級錯誤時,得到錯誤的計算結(jié)果,無法定位出現(xiàn)錯誤的計算結(jié)點。
對高性能計算機系統(tǒng)的精度是否滿足用戶要求,主要采用計算精度對比法和國際基準(zhǔn)程序測試法:
(1)計算精度對比法。使用基于用戶需求研制的核心算法并行程序、測試程序和典型應(yīng)用程序在國內(nèi)國外已投入運行的高性能計算機系統(tǒng)上運行,保存計算結(jié)果,在被測試的系統(tǒng)上使用同等規(guī)模的問題進行計算,然后進行計算結(jié)果比對,具有相同的有效數(shù)字,就認為計算結(jié)果正確。目前要測試的高性能計算機系統(tǒng)可能遠大于已投入運行的系統(tǒng),所計算的問題可能在已投入運行的機器上無法運行,得不到可供參考的計算結(jié)果。
(2)國際基準(zhǔn)程序測試法。選擇國際上的基準(zhǔn)測試程序?qū)Ω咝阅苡嬎銠C系統(tǒng)的計算精度進行測試,基準(zhǔn)測試程序中有標(biāo)準(zhǔn)的計算結(jié)果,測試完成后會自動報告是否成功,如果成功說明計算結(jié)果正確。該方法可以知道計算結(jié)果的正確性,但不知道哪些計算結(jié)點造成計算結(jié)果不正確,無法定位出錯誤的計算結(jié)點。
上述方法只能告訴用戶高性能計算機系統(tǒng)是否滿足用戶的需求,不能實現(xiàn)自動檢測功能,目前國際上還缺乏將計算精度有問題的計算結(jié)點自動檢測出來的方法。如何能夠既告訴用戶高性能計算機系統(tǒng)的精度是否滿足用戶的要求,又對計算精度不滿足要求的計算結(jié)點進行自動檢測是本領(lǐng)域技術(shù)人員極為關(guān)注的技術(shù)問題。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于:提出一種高性能計算機系統(tǒng)中不滿足計算精度要求的結(jié)點檢測方法,使用并行程序加載運行,自動定位不能滿足計算精度要求的少數(shù)計算結(jié)點。
為了解決上述技術(shù)問題,本發(fā)明的技術(shù)方案為:根據(jù)高性能計算機系統(tǒng)的并行計算環(huán)境,采用覆蓋MPI、OpenMP和加速器的基準(zhǔn)測試程序,加載運行基準(zhǔn)測試程序,自動檢測計算精度問題,定位不滿足計算精度要求的計算結(jié)點。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍國防科學(xué)技術(shù)大學(xué),未經(jīng)中國人民解放軍國防科學(xué)技術(shù)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210041912.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 允許服務(wù)器遠程訪問未通電的客戶計算機系統(tǒng)資產(chǎn)信息的數(shù)據(jù)處理系統(tǒng)和方法
- 無需用戶參與自動處理推送的信息的方法、系統(tǒng)與程序
- 在客戶計算機系統(tǒng)中遠程禁止網(wǎng)絡(luò)活動的數(shù)據(jù)處理系統(tǒng)和方法
- 在客戶計算機系統(tǒng)中遠程禁止網(wǎng)絡(luò)活動的數(shù)據(jù)處理系統(tǒng)和方法
- 分配用于多方應(yīng)用層會話的資格信息
- 分配用于多方應(yīng)用層會話的資格信息
- 一種用于多層次對話的調(diào)節(jié)計算機系統(tǒng)的方法
- 一種使用混合云計算系統(tǒng)進行通信的方法
- 遠程禁止客戶計算機系統(tǒng)的數(shù)據(jù)處理系統(tǒng)和方法
- 在客戶計算機系統(tǒng)中遠程禁止網(wǎng)絡(luò)活動的數(shù)據(jù)處理系統(tǒng)和方法
- 一種網(wǎng)絡(luò)帶寬控制方法
- 高性能計算機系統(tǒng)中不滿足計算精度要求的結(jié)點檢測方法
- 不滿足滯留工況下電梯轎廂緩沖制動裝置
- 一種基于三維結(jié)構(gòu)坐標(biāo)約束的運動目標(biāo)檢測方法
- 一種解決FPGA保持時間不滿足的方法
- 一種浴缸注水控制方法、裝置及浴缸
- 錯誤比特個數(shù)估計方法、裝置、計算機設(shè)備及存儲介質(zhì)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種地下結(jié)構(gòu)的水平拓建結(jié)構(gòu)
- 一種基于吸入氣體處理的氣管切開術(shù)患者護理裝置及方法





