[發明專利]用于深度學習和其它算法的FP16-S7E8混合精度在審
| 申請號: | 201910717259.0 | 申請日: | 2019-08-05 |
| 公開(公告)號: | CN110879724A | 公開(公告)日: | 2020-03-13 |
| 發明(設計)人: | S.N.卡什亞普;A.萊珀;P.博伊爾 | 申請(專利權)人: | 英特爾公司 |
| 主分類號: | G06F9/30 | 分類號: | G06F9/30;G06N3/063;G06N20/00 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 姜冰;楊美靈 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 深度 學習 其它 算法 fp16 s7e8 混合 精度 | ||
1.一種處理器,包括:
取電路,所述取電路用于取壓縮指令;
解碼電路,所述解碼電路用于解碼所述壓縮指令,所述壓縮指令具有用于指定具有N個經單精度格式化元素的源矢量和具有N個經神經半精度(NHP)格式化元素的經壓縮矢量的位置的字段;
執行電路,所述執行電路用于通過以下操作來執行所述壓縮指令:
將所述源矢量的每個元素轉換成所述NHP格式;
根據舍入模式來舍入每個轉換后的元素;以及
將每個舍入的元素寫到對應的經壓縮矢量元素;
其中所述NHP格式包括七個有效位比特和八個指數比特;以及
其中所述源矢量和經壓縮矢量各自在存儲器中或在寄存器中。
2. 如權利要求1所述的處理器,其中,所述單精度格式是由電氣和電子工程師協會所標準化的、作為IEEE 754-2008標準的一部分的二進制32格式。
3.如權利要求1所述的處理器,其中,所述執行電路進一步用于在累加和相乘時按需執行飽和。
4.如權利要求1-3中任一項所述的處理器,
其中所述取電路進一步用于取擴展指令,所述擴展指令具有用于指定目的地矢量和所述經壓縮矢量的位置的字段,所述目的地矢量具有根據所述單精度格式而格式化的N個元素;
其中所述處理器進一步包括:
解碼電路,所述解碼電路用于解碼所述擴展指令;以及
執行電路,所述執行電路用于通過以下操作來執行所述擴展指令:
將所述經壓縮矢量的每個元素轉換成所述單精度格式;以及
將每個轉換后的元素寫到對應的目的地矢量元素。
5.如權利要求1-3中任一項所述的處理器,
其中所述取、解碼和執行電路進一步用于取、解碼和執行第二壓縮指令,所述第二壓縮指令指定具有根據所述單精度格式而格式化的N個元素的第二源矢量和具有根據所述NHP格式而格式化的N個元素的第二經壓縮矢量的位置;
其中所述取和解碼電路進一步用于取和解碼混合精度矢量乘-累加(MPVMAC)指令,所述混合精度矢量乘-累加(MPVMAC)指令具有用于指定具有N個經NHP格式化元素的第一和第二源矢量以及具有N個經單精度格式化元素的目的地矢量的字段;其中所述源矢量是所述經壓縮矢量和所述第二經壓縮矢量;以及
其中所述執行電路進一步用于通過生成所述經壓縮矢量元素和所述第二經壓縮矢量元素的16比特乘積并將所生成的16比特乘積與所述目的地矢量的對應元素的先前內容相累加,針對所述N個元素中的每個元素而對所解碼的MPVMAC指令做出響應。
6.如權利要求5所述的處理器,其中,所述MPVMAC指令進一步具有用于指定寫掩碼的字段,所述寫掩碼包括N個比特,每個比特用于標識所述目的地矢量的所述對應元素何時被取消掩碼并將與所生成的16比特乘積一起被寫入,或者所述目的地矢量的所述對應元素何時被映射并被清零或合并。
7.如權利要求1-3中任一項所述的處理器,其中,所述源矢量和經壓縮矢量各自占據具有M行乘N列的矩陣的一個或多個行。
8.如權利要求1所述的處理器,其中,所述執行電路進一步用于根據舍入模式在轉換、累加和相乘時按需執行舍入。
9. 如權利要求8所述的處理器,其中,所述舍入模式由所述IEEE 754標準所指定,并且是以下項之一:舍入到最接近的數,當存在兩個數一樣接近時,取偶數值;舍入到最接近的數,當存在兩個數一樣接近時,取離零較遠的數;朝零舍入;朝正無窮舍入;以及朝負無窮舍入,并且其中所述舍入模式通過由所述指令所指定的立即值在每指令的基礎上被指定、或者通過軟件可編程控制和狀態寄存器在嵌入式基礎上被指定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于英特爾公司,未經英特爾公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910717259.0/1.html,轉載請聲明來源鉆瓜專利網。





