[發明專利]支持多寬度SIMD和多粒度SIMT的可配置矩陣寄存器單元有效
| 申請號: | 201010559458.2 | 申請日: | 2010-11-25 |
| 公開(公告)號: | CN102012803A | 公開(公告)日: | 2011-04-13 |
| 發明(設計)人: | 陳書明;張凱;陳海燕;萬江華;彭元喜;劉仲;陽柳;楊惠;劉蓬俠;胡春媚;唐濤 | 申請(專利權)人: | 中國人民解放軍國防科學技術大學 |
| 主分類號: | G06F9/30 | 分類號: | G06F9/30;G06F9/38 |
| 代理公司: | 湖南兆弘專利事務所 43008 | 代理人: | 周長清 |
| 地址: | 410073 湖南省長沙市開福區硯瓦池正街47號*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 支持 寬度 simd 粒度 simt 配置 矩陣 寄存器 單元 | ||
技術領域
本發明主要涉及到向量處理器中向量寄存器的設計領域,特指在向量處理器中的一種塊大小和線程數目可配置的矩陣寄存器,以支持按單指令流多數據流(SIMD)和單指令流多線程(SIMT)方式操作的向量運算單元對數據進行多寬度和多粒度訪問。
背景技術
隨著4G無線通信技術和視頻圖像處理技術的深入研究,向量處理器得到了廣泛的應用。快速演進的無線通信協議和視頻圖像處理算法中需要進行大量的矩陣運算,如信道估計、MIMO均衡和DCT變換。不同算法中的矩陣運算并行粒度不同,算法所處理的矩陣塊大小也不同,向量處理器只有提供對這些不同數目和不同塊大小的矩陣運算的高效支持,才能夠更好地適應這類數據密集型應用,滿足實時數據處理要求。
無線通信協議及視頻圖像處理的核心算法通常表現為數據級并行和線程級并行同時存在,面向這類應用的向量處理器通常采用超長指令字(VLIW)、單指令流多數據流(SIMD)體系結構,同時還會提供單指令流多線程(SIMT)技術的支持,以獲得足夠的并行運算能力。上述兩類算法通常還表現為以下特點:隨著協議的快速演進,算法所處理的向量長度也在不斷發生變化,同時,算法內可開發的線程級并行也在發生變化。如3G無限通信協議中,協議的演進使得基站和手持端的天線數目一直在改變,這就導致了在信道均衡矩陣中的向量長度也在不斷改變,意味著向量處理單元可以處理的向量數據的寬度和同時處理的線程個數都在改變。以上的這些特點對向量處理器能否從體系結構級提供對多寬度SIMD處理和多粒度SIMT處理提供足夠有效的支持提出了強烈的要求。因此本發明提出了一種塊大小和線程數目可配置的矩陣寄存器,可滿足算法中不同并行粒度和塊大小的向量運算需求。
矩陣寄存器的存儲單元陣列一般由N*M(M、N均為大于1的整數)個存儲單元組成,每個存儲單元的位寬一般為4、8、12、16、32,該陣列在邏輯上可以看成由N個行向量寄存器VR0-VRN-1或M個列向量CVR0-CVRM-1寄存器組成,N和M通常為2的冪數。每個行向量寄存器包含M個元素(存儲單元)Ei,0-Ei,M-1(i=0,1,2……N-1),每個列向量寄存器包含N個元素E0,i-EM-1,i(i=0,1,2……M-1)。矩陣寄存器在讀寫使能、讀寫地址和行列選擇信號的控制下完成行列向量的讀出和寫入。
已有的研究提供了對上述矩陣寄存器固定規模大小的塊數據的訪問,這些技術每次讀寫矩陣的一個行向量或列向量,向量的長度固定,當向量長度大于或小于該固定長度時,通常采用將多個短向量組合成一個長向量來并行處理,或者將一個長向量拆分成幾個短向量來分步處理,無法靈活處理不同大小的矩陣數據,不支持多寬度的SIMD處理,也不支持以多粒度SIMT的方式同時訪問多個矩陣數據,既不能獲得足夠的靈活性,也不能開發足夠的并行度,特別是線程級并行。
綜上所述,如何在向量處理器中提供對矩陣數據的高效靈活處理,為向量處理器的多粒度SIMT和多寬度SIMD處理提供靈活和足夠的并行操作數,提高向量處理器、陣列處理器的并行處理效率,以滿足無線通信和圖像處理等應用對大規模矩陣運算的需求仍是本領域研究的一個熱點問題。
發明內容
本發明要解決的技術問題就在于:針對現有技術存在的技術問題,本發明提供一種原理簡單、操作簡便、塊大小和線程數目可靈活配置、同時支持多寬度SIMD和多粒度SIMT方式訪問向量數據的矩陣寄存器單元。
為解決上述技術問題,本發明采用以下技術方案:
一種支持多寬度SIMD和多粒度SIMT的可配置矩陣寄存器單元,其特征在于:包括矩陣寄存器和控制寄存器SR,所述大小N*N的矩陣寄存器分成M*M塊,其中N為正整數且為2的冪,M為大于等于0的整數且為2的冪;所述控制寄存器中記錄了矩陣寄存器分塊模式和向量處理單元同時處理的多線程數目,所述控制寄存器的寬度為log2C+log2T,其中C為矩陣寄存器的分塊模式數,T為向量處理器能處理的多線程模式數。
作為本發明的進一步改進:
當M為0時,表示矩陣寄存器不分塊,向量運算部件每次可以訪問矩陣寄存器中的一個行向量或列向量;當M不為0時,向量運算部件根據同時處理的線程數目的不同訪問矩陣寄存器中的一個或多個相同長度的子行向量或子列向量,這些相同長度的子行向量或子列向量來自于不同分塊矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科學技術大學,未經中國人民解放軍國防科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010559458.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:消除銅綠胞菌的水液配方及其制備方法
- 下一篇:能捉活老鼠的捕鼠器





