[發明專利]用來執行用于機器學習的浮點和整數操作的指令和邏輯在審
| 申請號: | 202110256528.5 | 申請日: | 2018-04-27 |
| 公開(公告)號: | CN112947894A | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | H.考爾;M.A.安德斯;S.K.馬修;姚安邦;J.雷;P.T.唐;M.S.斯特里克蘭德;X.陳;T.斯派斯曼;A.R.阿普;A.科克;K.辛哈;B.溫布;N.C.G.馮博里斯;E.努爾維塔迪;R.巴里克;T-H.林;V.蘭加納坦;S.雅哈吉達爾 | 申請(專利權)人: | 英特爾公司 |
| 主分類號: | G06F7/57 | 分類號: | G06F7/57 |
| 代理公司: | 永新專利商標代理有限公司 72002 | 代理人: | 劉瑜 |
| 地址: | 美國加*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用來 執行 用于 機器 學習 浮點 整數 操作 指令 邏輯 | ||
1.一種裝置,包括:
存儲器接口;
耦合到所述存儲器接口的多處理器陣列,所述多處理器陣列中的至少一個多處理器用于跨多個線程并行地執行融合乘-加指令,所述至少一個多處理器包括:
用于存儲數據的寄存器堆;以及
耦合到所述寄存器堆的執行電路,所述執行電路用于執行所述融合乘-加指令以生成多維結果矩陣,所述執行電路包括:
硬件邏輯,所述硬件邏輯用于將第一多維源矩陣的第一多個數據元素和第二多維源矩陣的第二多個數據元素從32位浮點數據格式轉換為具有1位符號、8位指數和尾數的降低精度的浮點格式,所述降低精度的浮點格式的尾數具有的位少于所述32位浮點數據格式的尾數的位;以及
多個乘-加電路,所述多個乘-加電路用于執行并行融合乘-加操作,來將以所述降低精度的浮點格式的所述第一多個數據元素與以所述降低精度的浮點格式的所述第二多個數據元素的相對應的數據元素相乘以生成多個乘積,并且用于將所述多個乘積與相對應的32位浮點值相加,以生成所述多維結果矩陣的相對應的32位浮點數據元素。
2.根據權利要求1所述的裝置,其中,所述降低精度的浮點格式的所述尾數包括7位尾數。
3.根據權利要求1或2所述的裝置,其中,所述融合乘-加指令包括用于標識所述第一多個數據元素的第一操作數,以及用于標識所述第二多個數據元素的第二操作數。
4.根據權利要求3所述的裝置,其中,所述第一操作數標識所述寄存器堆的第一一個或多個寄存器中的所述第一多個數據元素,并且所述第二操作數標識所述寄存器堆的第二一個或多個寄存器中的所述第二多個數據元素。
5.根據權利要求1至4中的任一項所述的裝置,還包括:
指令獲取單元,其用于獲取所述融合乘-加指令;
解碼器,其用于對所述融合乘-加指令進行解碼,以生成要跨所述多個線程執行的并行乘-加操作;以及
調度器,其用于調度所述并行乘-加操作以用于由所述執行電路執行。
6.根據權利要求5所述的裝置,其中,所述執行電路包括多個算術邏輯單元(ALU)。
7.根據權利要求1至6中的任一項所述的裝置,還包括:
互連結構,其用于將所述多處理器陣列耦合到所述存儲器接口。
8.根據權利要求7所述的裝置,還包括:
耦合到所述互連結構的輸入/輸出(IO)接口。
9.根據權利要求8所述的裝置,還包括:
由所述多個乘-加電路共享的共享高速緩存或本地存儲器。
10.一種系統,包括:
系統存儲器;以及
根據權利要求1至9中的任一項所述的裝置;
其中,所述存儲器接口耦合到所述系統存儲器。
11.根據權利要求10所述的系統,還包括:
本地存儲器;
耦合到所述本地存儲器的本地存儲器接口;以及
存儲器控制器,其用于經由所述本地存儲器接口將存儲器請求路由到所述本地存儲器,或者經由所述存儲器接口將存儲器請求路由到所述系統存儲器。
12.根據權利要求10或11所述的系統,還包括:
耦合到所述I/O接口的I/O設備。
13.根據權利要求12所述的系統,其中,所述I/O設備包括以下各項中的一項或多項:持久性存儲設備;網絡接口設備;以及串行通信設備。
14.根據權利要求13所述的系統,還包括:
經由主機處理器接口耦合到所述I/O接口的主機處理器,所述主機處理器用于執行程序代碼并且提供將由所述執行電路執行的命令。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于英特爾公司,未經英特爾公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110256528.5/1.html,轉載請聲明來源鉆瓜專利網。





