[發明專利]計算優化機制在審
| 申請號: | 202010801699.7 | 申請日: | 2018-04-23 |
| 公開(公告)號: | CN111932434A | 公開(公告)日: | 2020-11-13 |
| 發明(設計)人: | A·R·阿普;A·考克;L·L·赫德;D·金;M·B·麥克弗森;J·C·韋斯特;陳峰;F·阿赫巴里;N·斯里尼瓦薩;N·R·薩蒂什;J·雷;P·T·唐;M·S·斯特里克蘭;陳曉明;姚安邦;T·史佩斯曼 | 申請(專利權)人: | 英特爾公司 |
| 主分類號: | G06T1/20 | 分類號: | G06T1/20;G06N3/02 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 陳依心;黃嵩泉 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 計算 優化 機制 | ||
1.一種裝置,包括:
互連結構,包括一個或多個開關;
存儲器接口,耦合到所述互連結構;
輸入/輸出(IO)單元,耦合到所述互連結構;
處理集群的陣列,耦合到所述互連結構,所述處理集群的陣列用于以可變精度處理指令,至少一個處理集群包括:
多個寄存器,用于以可變精度存儲源操作數;以及
執行單元,包括多個算術邏輯單元(ALU),所述執行單元用于執行所述指令中的一個或多個以執行D=A*B+C的混合精度融合乘法累加(FMAC)操作,其中,每個源操作數A、B和C是FP64、FP32、FP16、INT32、INT16、INT8或INT4中的任一者;
其中,ALU用于通過以下步驟生成結果操作數D:
將源操作數A與源操作數B相乘以生成中間乘積,
將所述中間乘積加到源操作數C。
2.如權利要求1所述的裝置,進一步包括:
并行處理器管芯,包括所述互連結構、所述存儲器接口、所述輸入/輸出(IO)單元以及所述處理集群的陣列,
所述并行處理器管芯進一步包括:
本地存儲器互連,用于將所述存儲器接口耦合到堆疊的存儲器管芯,所述本地存儲器互連包括存儲器接口的獨立組,所述存儲器接口的獨立組與多個堆疊的存儲器管芯的相應存儲器管芯相關聯。
3.如權利要求1所述的裝置,其中,所述混合精度指令是機器學習框架的圖元。
4.如權利要求3所述的裝置,其中,所述多個壓縮數據元素中的至少一些包括與所述機器學習框架的卷積層相關聯的矩陣的數據元素。
5.如權利要求3所述的裝置,其中,與所述機器學習框架的卷積層相關聯的矩陣包括第一矩陣和第二矩陣,并且其中,多個乘法中的每一個包括來自所述第一矩陣的壓縮數據元素與來自所述第二矩陣的壓縮數據元素的乘法。
6.如權利要求3所述的裝置,其中,所述機器學習框架包括神經網絡。
7.如權利要求3所述的裝置,其中,所述機器學習框架包括遞歸神經網絡RNN。
8.如權利要求1所述的裝置,進一步包括:
虛擬化電路,用于與多個虛擬機共享所述處理集群的陣列。
9.如權利要求8所述的裝置,其中,所述虛擬化電路包括控制寄存器的多個集合,所述控制寄存器的多個集合用于與多個對應的虛擬機相關聯,一組控制寄存器用于存儲一個或多個地址指針以標識與對應的虛擬機相關聯的存儲器區域。
10.如權利要求2所述的裝置,其中,存儲器接口包括存儲器通道,并且其中,存儲器接口的獨立組包括對應的存儲器管芯與處理集群之間的至少一個物理存儲器通道以及一個或多個虛擬存儲器通道。
11.如權利要求1所述的裝置,進一步包括:
高速緩存層級結構,用于為所述處理集群的陣列存儲數據,所述高速緩存層級結構包括L1高速緩存和用于在所述多個處理集群之間共享的L2高速緩存。
12.如權利要求2所述的裝置,進一步包括:
存儲器管理電路,用于將3D存儲器堆疊的物理存儲器分配給系統存儲器。
13.如權利要求2所述的裝置,進一步包括:
輸入/輸出存儲器管理單元IOMMU,耦合到所述互連結構,所述IOMMU包括轉換緩沖器,所述轉換緩沖器用于存儲用于訪問系統存儲器的虛擬到物理地址轉換,所述系統存儲器包括3D存儲器堆疊。
14.如權利要求13所述的裝置,其中,第一一個或多個虛擬到物理地址轉換用于標識所述3D存儲器堆疊中的區域,并且其中,第二一個或多個虛擬到物理地址轉換用于標識系統存儲器設備中的區域。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于英特爾公司,未經英特爾公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010801699.7/1.html,轉載請聲明來源鉆瓜專利網。





