[發明專利]申威26010眾核CPU上GEMM稠密矩陣乘高性能實現方法有效
| 申請號: | 201710310445.3 | 申請日: | 2017-05-05 |
| 公開(公告)號: | CN107168683B | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 楊超;蔣麗娟;尹萬旺;敖玉龍;魏迪;袁欣輝;劉芳芳;張鵬 | 申請(專利權)人: | 中國科學院軟件研究所;無錫江南計算技術研究所 |
| 主分類號: | G06F9/302 | 分類號: | G06F9/302;G06F9/38 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 楊學明;顧煒 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 申威 26010 眾核 cpu gemm 稠密 矩陣 性能 實現 方法 | ||
1.申威26010眾核CPU上GEMM稠密矩陣乘高性能實現方法,其特征在于:申威26010眾核平臺存儲結構體系自底向上包含主內存,從核LDM,寄存器三級存儲結構,受限于各級存儲結構存儲空間的大小,設計三級分塊并行矩陣乘算法,以將數據傳輸到從核上利用從核陣列強大的計算資源進行計算,其中從核陣列包含組織成8行8列mesh結構的64個從核,設C為待更新矩陣,A,B為運算矩陣,C、A、B維度分別為m*n,m*k,k*n,在主內存分別將矩陣C、A、B劃分成大小為bm*bn的子矩陣BCij,1≤i≤m/bm,1≤j≤n/bn,bm*bk的子矩陣BAil,1≤i≤m/bm,1≤l≤n/bn和bk*bn的子矩陣BBlj,1≤l≤k/bk,1≤j≤n/bn,在從核LDM分別將子矩陣BCij,BAil,BBlj平均劃分成64份大小為pm*pn的子矩陣PCuv,1≤u≤8,1≤v≤8,pm*pk的子矩陣PAuw,1≤u≤8,1≤w≤8和pk*pn的子矩陣PBwv,1≤w≤8,1≤v≤8,將數據從LDM傳輸到寄存器進行運算時,將子矩陣PCuv劃分成大小為rm*rn的子矩陣進行更新;
所述三級分塊并行矩陣乘算法具體步驟如下:
第一步,采用n-k-m三層嵌套循環算法,控制矩陣C以子矩陣BCij為單位,串行更新;
第二步,更新子矩陣BCij時,利用主從核間異步DMA數據傳輸機制,通過計算與訪存重疊的雙緩沖策略,將計算所需的子矩陣BCij,BAil和BBlj從主內存傳輸到從核LDM中,且進行數據傳輸時,將子矩陣BCij,BAil和BBlj進一步劃分的子矩陣PCuv,PAuw和PBwv,分別映射到64個從核上,每個從核得到相應的子矩陣PCuv,PAuw和PBwv;
第三步,更新子矩陣BCij時,利用已傳輸到從核陣列上的子矩陣BAil和BBlj,在64個從核上,并行計算核心操作BAil*BBlj,每個從核負責映射到本地LDM子矩陣PCuv的更新,且在并行計算時,通過寄存器通信機制實現從核陣列間的數據共享;
第四步,每個從核更新子矩陣PCuv時,主要執行運算PAuw*PBwv,對此核心操作,設計循環展開策略與軟件流水線排布方法,在最內層循環使用高效的寄存器分塊模式,以rm*rn的C子矩陣為單位進行更新,并256位SIMD向量化以及乘加指令,實現函數優化;
第五步,將已經更新的子矩陣BCij,通過DMA方式從從核LDM中寫回主內存中。
2.根據權利要求1所述的申威26010眾核CPU上GEMM稠密矩陣乘高性能實現方法,其特征在于:所述第一步,n-k-m三層嵌套循環算法中,將矩陣B作為緩存矩陣,即上傳到從核陣列中的B矩陣元素將緩存在從核LDM中直到不再使用。
3.根據權利要求1所述的申威26010眾核CPU上GEMM稠密矩陣乘高性能實現方法,其特征在于:所述第二步,DMA傳輸方式包含行模式和單從核模式兩種,可根據矩陣地址對齊方式自動選擇傳輸效率較高的行模式傳輸矩陣元素,否則選擇單從核模式。
4.根據權利要求1所述的申威26010眾核CPU上GEMM稠密矩陣乘高性能實現方法,其特征在于:所述第二步,雙緩沖策略具體為,從主存預取用于下次計算A矩陣元素、C矩陣元素到從核LDM,以及從LDM寫回上次循環計算過的C矩陣元素,且此數據傳輸過程與本次塊矩陣乘計算過程并行執行,計算過程執行時間略大于數據傳輸過程所需時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所;無錫江南計算技術研究所,未經中國科學院軟件研究所;無錫江南計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710310445.3/1.html,轉載請聲明來源鉆瓜專利網。





