[發明專利]用于點積操作的系統、方法和裝置在審
| 申請號: | 201811443526.1 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109992300A | 公開(公告)日: | 2019-07-09 |
| 發明(設計)人: | R·薩德;S·盧巴諾維奇;A·格雷德斯廷;Z·斯波比爾;A·海內克;R·凡倫天;M·J·查尼;B·托爾;J·科巴爾;E·烏爾德-阿邁德-瓦爾;M·阿德爾曼 | 申請(專利權)人: | 英特爾公司 |
| 主分類號: | G06F9/30 | 分類號: | G06F9/30 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 李煒;黃嵩泉 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 點積 矩陣 方法和裝置 累加 字數據 矩陣操作 指令支持 指令 申請 | ||
本申請提供了用于點積操作的系統、方法和裝置。本文中詳述的實施例涉及矩陣操作。例如,詳述了對矩陣(片)點積操作的指令支持的實施例。示例性指令包括:計算有符號字的點積,并累加在矩陣對的四字數據元素中。此外,在一些實例中,將矩陣對的非累加四字數據元素設置為零。
技術領域
本發明的領域總體上涉及計算機處理器架構,更具體地涉及矩陣操縱。
背景技術
在諸如機器學習和其他批量數據處理之類的計算任務中,矩陣正變得日益重要。
附圖說明
在所附附圖中以示例方式而非限制方式說明本發明,在附圖中,類似的附圖標記指示類似的要素,其中:
圖1A和圖1B圖示經配置的片(tile)的實施例;
圖2圖示矩陣存儲的若干示例;
圖3圖示利用矩陣(片)操作加速器的系統的實施例;
圖4和圖5示出如何使用矩陣操作加速器來共享存儲器的不同實施例;
圖6圖示使用片的矩陣乘法累加(“TMMA”)操作的實施例;
圖7圖示鏈式融合乘法累加指令的迭代的執行的子集的實施例;
圖8圖示鏈式融合乘法累加指令的迭代的執行的子集的實施例;
圖9圖示鏈式融合乘法累加指令的迭代的執行的子集的實施例;
圖10圖示鏈式融合乘法累加指令的迭代的執行的子集的實施例;
圖11圖示根據實施例的尺寸為2的冪的SIMD實現方式,其中,累加器使用比至乘法器的輸入的尺寸大的輸入尺寸;
圖12圖示利用矩陣操作電路的系統的實施例;
圖13圖示處理器核流水線的實施例,該處理器核流水線支持使用片的矩陣操作;
圖14圖示處理器核流水線的實施例,該處理器核流水線支持使用片的矩陣操作;
圖15圖示按行為主格式和列為主格式表達的矩陣的示例;
圖16圖示矩陣(片)的使用的示例;
圖17圖示矩陣(片)的使用的方法的實施例;
圖18圖示根據實施例的對片的使用的配置的支持;
圖19圖示將支持的矩陣(片)的描述的實施例;
圖20(A)-圖20(D)圖示(多個)寄存器的示例;
圖21圖示TDPPAIR指令的示例性執行;
圖22圖示由處理器執行以處理矩陣(片)點積指令的方法的實施例;
圖23圖示根據實施例的、與由處理器執行以執行TDPPAIR指令的示例方法有關的附加細節,其中,該指令具有用于第一源矩陣(片)操作數、第二源矩陣(片)操作數和目的地矩陣對(片對)操作數的字段;
圖24圖示根據實施例的用于執行如上所述的片點積操作的方法的示例。
圖25A圖示示例性指令格式;
圖25B圖示來自圖25A的哪些字段構成完整操作碼字段和基礎操作字段;
圖25C圖示來自圖25A的哪些字段構成寄存器索引字段;
圖26是根據本發明的一個實施例的寄存器架構的框圖;
圖27A是圖示根據本發明的實施例的示例性有序流水線和示例性的寄存器重命名的亂序發布/執行流水線的框圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于英特爾公司,未經英特爾公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811443526.1/2.html,轉載請聲明來源鉆瓜專利網。





