[發明專利]使用外積單元的原生張量處理器有效
| 申請號: | 201810444568.0 | 申請日: | 2018-05-10 |
| 公開(公告)號: | CN108875958B | 公開(公告)日: | 2020-02-18 |
| 發明(設計)人: | 呂堅平;鄧宇軒 | 申請(專利權)人: | 廣州異構智能科技有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06F15/76 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 何沖;黃隸凡 |
| 地址: | 511458 廣東省廣州市南沙區豐澤*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 單元 原生 張量 處理器 | ||
1.一種用于使用外積之和來計算張量縮并的原生張量處理器的外積單元,其通過外積的總和計算矩陣乘法A(i,k)×B(k,j)=C(i,j),其中i=1…I和j=1…J是自由指數,k=1…K是縮并指數,由原生張量處理器執行的最細粒度計算為原子外積,執行該計算的硬件為原子處理元素,所述外積單元包括:
輸入端,用于接收矩陣A和B的元素;
多個原子處理元素,其(a)計算外積α×β,其中α是ι×1列向量,β是行向量,并且(b)沿著縮并指數k對外積α×β進行累加;
其中ι>1并且且所述原子處理元素執行的標量乘法;
分配部段,其將所述輸入端連接到多個原子處理元素,所述分配部段相對于自由指數i、j將A×B矩陣乘法分割成多個α×β外積,并將α×β外積引導到所述原子處理元素;
輸出端,用于傳輸積C的元素;以及
收集部段,其將原子處理元素連接到所述輸出端,所述收集部段將由原子處理元素計算得的累加的外積合并到積C中,所述收集部段通過時分復用來實現;
其中所述外積單元在單一集成電路上實現;并且
所述分配部段包括多個以硬件形式的中間處理元素,所述分配部段將所述輸入端連接到多個以硬件形式的中間處理元素,并將每個以硬件形式的中間處理元素連接到原子處理元素的子集。
2.根據權利要求1所述的外積單元,其特征在于,所有的原子處理元素相互并行運算,并且沒有一個原子處理元素需要這樣的向量α或β:該向量α或β依賴于由另一個原子處理元素計算的外積。
3.根據權利要求1所述的外積單元,其特征在于,沒有數據從一個原子處理元素傳輸到另一個原子處理元素。
4.根據權利要求1所述的外積單元,其特征在于,矩陣乘法的所有雙目計算都由原子處理元素執行。
5.根據權利要求1所述的外積單元,其特征在于,原子處理元素在單一時鐘周期內計算外積α×β。
6.根據權利要求1所述的外積單元,其特征在于,原子處理元素包括乘累加電路的陣列。
7.根據權利要求6所述的外積單元,其特征在于,α的元素通過原子處理元素并行地被接收,并且β的元素也通過原子處理元素并行地被接收。
8.根據權利要求6所述的外積單元,其特征在于,原子處理元素還包括預變換引擎;MAC的陣列執行兩個矩陣之間的逐元素相乘;并且預變換引擎是可編程的,以執行Winograd變換、行和列的復制,或不執行預變換。
9.根據權利要求6所述的外積單元,其特征在于,MAC陣列執行兩個矩陣之間的逐元素相乘,列向量α被復制次以形成兩個矩陣中的一個,并且行向量β被復制ι次以形成另外的兩個矩陣。
10.根據權利要求1所述的外積單元,其特征在于,對于原子處理元素的子集,在子集中的原子處理元素的輸出是時分復用的。
11.根據權利要求1所述的外積單元,其特征在于,所述分配部段包括至少兩層以硬件形式的中間處理元素,所述分配部段將所述輸入端連接到第一層中的以硬件形式的中間處理元素,并將最后層中的每個以硬件形式的中間處理元素連接到原子處理元素的子集。
12.根據權利要求1所述的外積單元,其特征在于,外積單元可以適應不同大小i、j、k的矩陣A和B,所述外積單元還包括:
控制器,其控制所述分配部段的分割、所述原子處理元素的運算和所述收集部段的合并,所有的這些都根據i、j、k的大小進行。
13.根據權利要求1所述的外積單元,其特征在于,通過所述分配部段的矩陣的傳輸至少是部分地流水線的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州異構智能科技有限公司,未經廣州異構智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810444568.0/1.html,轉載請聲明來源鉆瓜專利網。





