[發(fā)明專利]一種適合復雜異構系統(tǒng)的HPL的Panel分解優(yōu)化方法和裝置有效
| 申請?zhí)枺?/td> | 202010636408.3 | 申請日: | 2020-07-03 |
| 公開(公告)號: | CN111913747B | 公開(公告)日: | 2022-05-24 |
| 發(fā)明(設計)人: | 趙慧;楊文浩;黎雷生;張婭;孫家昶 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | G06F9/38 | 分類號: | G06F9/38 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 適合 復雜 系統(tǒng) hpl panel 分解 優(yōu)化 方法 裝置 | ||
本發(fā)明公開一種適合復雜異構系統(tǒng)的HPL的Panel分解優(yōu)化方法和裝置。該優(yōu)化方法通過分析HPL中Panel分解基礎代碼,得出影響系統(tǒng)性能的瓶頸,為了進一步提高系統(tǒng)效率,采用基本參數(shù)調優(yōu)、GPU加速Panel分解DGEMM以及Panel廣播的優(yōu)化加速Panel分解,其中Panel廣播的優(yōu)化包括避免數(shù)據(jù)封裝和Panel廣播流水兩方面的優(yōu)化。本發(fā)明將Panel廣播流水與GPU加速Panel分解DGEMM協(xié)同使用,充分利用系統(tǒng)的CPU、GPU、PCIe和網絡接口資源,提高了整個CPU+GPU復雜異構系統(tǒng)HPL測試程序的效率。
技術領域
本發(fā)明涉及計算機高性能計算領域,特別設計一種適合復雜異構系統(tǒng)的HPL(HighPerformance Linpack,高性能Linpack測試軟件)的Panel分解優(yōu)化方法和裝置,該優(yōu)化方法和裝置通過加速Panel分解,提高帶有加速器的復雜異構系統(tǒng)中加速器的利用率,從而提高整個系統(tǒng)的HPL效率。
背景技術
長期以來,理論推導和科學實驗是人類進行科學研究的兩大方法,隨著信息化社會的不斷變化,在信息化的推動下,高性能計算技術和應用的蓬勃發(fā)展,計算模擬已成為科學研究中不可缺少的第三種方法。高性能計算已經在人工智能、氣象環(huán)境、航空航天、生物信息、基因測序、石油勘探、工業(yè)設計等各個領域廣泛應用,發(fā)揮了重要作用,解決了一些重大科學和工程問題。高性能計算是前沿性的高技術,是各國爭奪的戰(zhàn)略制高點,是衡量國家科技能力的重要標志。
Linpack Benchmark是國際上廣泛用于測試高性能計算機系統(tǒng)性能的程序,而HPL是Linpack Benchmark在分布存儲計算機上的并行版本,是業(yè)內公認的高性能計算運算能力基準測試方法,其報告的每秒浮點運算次數(shù),是國際上著名的TOP500超級計算機排名的依據(jù)。HPL采用高斯消元法求解N元稠密線性代數(shù)方程組,從而評價高性能計算機的浮點性能。
浮點計算峰值,它是指計算機每秒鐘能完成的浮點計算最大次數(shù)。包括理論浮點峰值和實測浮點峰值。理論浮點峰值是該計算機理論上能達到的每秒鐘能完成浮點計算最大次數(shù)。實測浮點峰值是指HPL測試值,也就是說在機器上運行HPL測試程序,通過各種調優(yōu)方法得到的最優(yōu)的測試結果。
HPL的特點是自由度比較大,使用時可以根據(jù)需要選擇矩陣的規(guī)模,分塊大小,分解方法等各種參數(shù),除基本算法不可改變外,可采用其它任何優(yōu)化方法,充分反映不同機器規(guī)模、不同結構系統(tǒng)的浮點計算性能,使得HPL能更好地反映機器的浮點性能。
隨著以GPU為代表的加速器技術的發(fā)展,加速器浮點性能越來越高,CPU與加速器的浮點性能差距越來越大,如何針對系統(tǒng)配置為CPU+GPU的復雜異構系統(tǒng)提高HPL的測試值,得到最優(yōu)的浮點性能數(shù)據(jù)結果,對于國內高性能計算有著重要的意義。
發(fā)明內容
本發(fā)明的目的在于根據(jù)HPL的特點,通過Panel分解的優(yōu)化方法和裝置,盡量用GPU計算時間隱藏Panel分解時間,實現(xiàn)并行計算處理,進一步提高計算效率。
本發(fā)明的目的通過以下的技術方案實現(xiàn):
一種適合復雜異構系統(tǒng)的HPL的Panel分解優(yōu)化方法,包括以下步驟:
對與Panel分解計算有關的基本參數(shù)進行調優(yōu);
利用調優(yōu)后的基本參數(shù),通過GPU加速Panel分解;
對Panel廣播進行優(yōu)化,使得Panel數(shù)據(jù)廣播與Panel分解計算并行處理。
進一步地,所述與Panel分解計算有關的基本參數(shù)包括:NB、NBMIN、PFACT、RFACT、DIV;其中NB取決于GPU執(zhí)行矩陣更新的效率,同時考慮CPU與GPU計算的平衡;節(jié)點規(guī)模較小時NB偏大,節(jié)點規(guī)模較大時NB稍小;通過參數(shù)調優(yōu),選擇優(yōu)化的參數(shù)組合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010636408.3/2.html,轉載請聲明來源鉆瓜專利網。





