[發明專利]面向異構融合體系結構的矩陣乘加速方法有效
| 申請號: | 201910076766.0 | 申請日: | 2019-01-27 |
| 公開(公告)號: | CN109871512B | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 甘新標;曾瑞庚;楊志輝;孫澤文;吳濤;劉杰;龔春葉;李勝國;楊博;徐涵;晏益慧 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F17/16 | 分類號: | G06F17/16;G06F7/523 |
| 代理公司: | 長沙中科啟明知識產權代理事務所(普通合伙) 43226 | 代理人: | 任合明 |
| 地址: | 410003 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 融合 體系結構 矩陣 加速 方法 | ||
本發明公開了一種面向異構融合體系結構的矩陣乘加速方法,目的是面向不同的眾核加速器目標體系結構設計一種通用的面向異構融合體系結構矩陣乘加速方法,提高異構系統使用效率。技術方案是先設計面向異構融合體系結構的分塊矩陣乘版本,包括vcpu、vgpu、vmic,vscif,vcoi,vtarget,然后對這些異構融合多版本矩陣乘版本集成打包生成異構融合版本的庫文件HU?xgemm;最后用HU?xgemm適配異構融合體系結構中的加速器。本發明能夠自適應不同的目標加速器和處理器,能根據不同的異構融合體系結構自適應地進行矩陣乘,且根據不同的異構融合體系結構中CPU或加速器的拓撲結構進行矩陣乘,各FMA并行計算,加快了矩陣乘速度,提高了異構系統使用效率。
技術領域
本發明涉及矩陣乘加速方法,尤指面向異構系統的異構融合體系結構矩陣乘加速方法。
背景技術
隨著通用加速器計算性能的不斷攀升和加速器的廣泛應用,眾核加速器必將成為高性能計算重要的發展方向,涌現出GPU、MIC(Xeon Phi)、Matrix2000等滿足各領域需求的加速器。隨著異構系統的廣泛應用和普及,涌現出以CPU+GPU,CPU+MIC,CPU+Matrix2000等眾多不同類型的異構體系結構。
加速器的設計目標和設計原則決定了加速器的專用性和局限性,不同加速器廠商開發了與之適應的的編程模型,如GPU支持的CUDA,MIC支持的Offload,Matrix2000支持的COI(Coprocessor Offload Infrastructure)、SCIF(Symmetric CommunicationsInterface)、OpenMP target等編程模型。面向目標加速器的程序設計必須采用其支持的編程模型重新設計并實現算法,才有可能加速;如果不依照加速器支持的編程模型對程序進行重新設計并實現,程序基本不可能運行,更不會有加速效果。因此,針對不同的異構系統需要設計實現不同版本的程序,如面向CPU+GPU異構系統必須實現能夠在CPU與GPU之間高效協同的算法和程序;面向CPU+MIC必須實現能夠在CPU與MIC之間高效協同的算法和程序;面向CPU+Matrix2000必須實現能夠在CPU與Matrix2000之間高效協同的算法和程序。隨著異構系統加速器的更新替換和升級,不同時期需要重新設計實現面向不同加速器版本的程序,甚至可能出現一套異構系統中同時出現多種加速器混合使用的情形時需要同時設計面向不同目標加速器的算法和程序。
面向不同的異構系統,軟件設計人員需要重新理解目標體系結構和學習新的編程模型來實現已有的算法,花費大量的時間來學習新知識去重復已有的工作,效果可能還不好,也不利于專注領域算法設計與開發。因此,設計一套通用的程序能運行于不同異構系統上,將極大解放程序設計人員,提高開發效率。
矩陣乘是數值計算中最常用的一類操作,很多應用中都包含矩陣乘的計算過程,提高了矩陣乘的運算速度,就能很大程度提高高性能計算的速度。
矩陣乘是將被乘矩陣A的一行和乘數矩陣B的一列相乘得到結果矩陣C中的一個元素。面向異構系統的矩陣乘法通常需要將矩陣乘計算過程合理分布在主處理器(CPU)和眾核加速器之間異構協同并行完成計算過程,以提高矩陣乘的運算速度和最大化異構系統的計算效率和使用效率。
由于眾核加速器設計目標和指令集結構的不同,傳統的面向通用主處理器的矩陣乘實現技術很難滿足面向特定應用而設計的眾核加速器的性能要求,因此,必須面向眾核加速器目標體系結構對矩陣乘進行加速以提高矩陣乘的運算速度,最大限度滿足異構系統設計目標。
若能面向CPU+GPU、CPU+MIC、CPU+Matrix2000等多種異構系統提供異構融合矩陣乘加速方法以屏蔽目標體系結構細節,簡化異構系統程序開發,提高異構系統效率,使得程序員能最大限度專注于領域算法設計與開發,而不需要了解異構系統具體的結構和指令,將有力解決眾核加速器在高性能計算領域發展制約,是本領域技術人員亟需解決的技術難題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910076766.0/2.html,轉載請聲明來源鉆瓜專利網。





