[發明專利]用于矩陣處理的芯片、矩陣處理方法、裝置及存儲介質有效
| 申請號: | 201910203485.7 | 申請日: | 2019-03-18 |
| 公開(公告)號: | CN110147347B | 公開(公告)日: | 2023-01-06 |
| 發明(設計)人: | 于瀟宇;王玉偉;章恒;高劍林 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F15/80 | 分類號: | G06F15/80 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 張所明 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 矩陣 處理 芯片 方法 裝置 存儲 介質 | ||
本發明公開了一種用于矩陣處理的芯片、矩陣處理方法、裝置及存儲介質,屬于計算機技術領域。所述方法包括:讀取乘數矩陣,并將乘數矩陣存儲到每個PE群組的每個PE中;讀取被乘數矩陣,并將被乘數矩陣的不同行向量分別存儲到不同PE群組的每個PE內;在同一PE群組內,將被乘數矩陣的行向量與乘數矩陣的不同列向量相乘,得到PE群組內的相乘結果;根據不同PE群組內的相乘結果,確定被乘數矩陣與乘數矩陣的結果矩陣。本發明通過在PE群組間復用乘數矩陣,在PE群組內復用被乘數矩陣的行向量,從而在處理較大規模的矩陣乘法任務時,能夠調用更多的資源,提高了計算效率,縮短了計算時間。
技術領域
本發明涉及計算機技術領域,特別涉及一種用于矩陣處理的芯片、矩陣處理方法、裝置及存儲介質。
背景技術
在計算機技術領域,矩陣乘法作為數據處理中典型的算法,被廣泛應用于深度學習的各種網絡中,包括LSTM(Long Short-Term Memory,長短期記憶)、RNN(RecurrentNeural Network,循環神經網絡)等。對于規模較大的矩陣相乘任務,由于涉及到大量的乘法和加法運算,需要占用大量的計算時間。因此,如何對深度學習中的矩陣進行處理,以對矩陣計算進行加速,成為本領域技術人員較為關注的問題。
對于被乘數矩陣(記為矩陣A)與乘數矩陣B(記為矩陣B),相關技術主要采用如下方法進行處理:
(1)、讀取矩陣A和矩陣B,并獲取矩陣B對應的轉置矩陣BT,通過DMA(DirectMemory Access,直接內存存取)控制器將矩陣A和轉置矩陣BT按行存儲到相應的向量存儲單元中。
(2)、將矩陣A的一行元素和轉置矩陣BT的一行元素加載到處理單元中并一一對應相乘,將相乘結果在指定的并行處理單元中歸約求和,并將求和結果作為結果矩陣的一個元素存儲到向量存儲單元中。
(3)、順移到轉置矩陣BT的下一行,重復步驟(2)、(3),直至完成矩陣A的一行和轉置矩陣BT所有行的計算,計算得到結果矩陣C的一行元素。
(4)、順移到矩陣A的下一行,重復步驟(2)、(3)、(4),直至完成矩陣A所有行的計算,得到結果矩陣C的所有行元素。
然而,由于每次只能加載矩陣一行元素,調用資源較少,因而在實現較大規模的矩陣相乘時,計算效率較低、計算時間較長。
發明內容
為了解決相關技術的問題,本發明實施例提供了一種用于矩陣處理的芯片、矩陣處理方法、裝置及存儲介質。所述技術方案如下:
一方面,提供了一種用于矩陣處理的芯片,所述芯片包括:數據通道、控制通道、PE(Processing Element,處理元件)接口、PE群組陣列;
所述數據通道用于讀取待計算的被乘數矩陣和乘數矩陣;
所述控制通道用于對所述PE群組陣列的計算進行控制;
所述PE接口用于從所述數據通道中讀取被乘數矩陣和乘數矩陣;
所述PE群組陣列包括多個PE群組,多個PE群組間復用同一乘數矩陣,每個PE群組內復用被乘數矩陣的不同行向量,所述PE群組陣列用于實現被乘數矩陣與乘數矩陣之間的乘法計算。
另一方面,提供了一種矩陣處理方法,其特征在于,所述矩陣處理方法應用于一方面所述的用于矩陣處理的芯片,所述方法包括:
讀取乘數矩陣,并將所述乘數矩陣存儲到每個PE群組的每個PE中;
讀取被乘數矩陣,并將所述被乘數矩陣的不同行向量分別存儲到不同PE群組的每個PE內;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910203485.7/2.html,轉載請聲明來源鉆瓜專利網。





