[發明專利]用于深度學習和其它算法的FP16-S7E8混合精度在審
| 申請號: | 201910717259.0 | 申請日: | 2019-08-05 |
| 公開(公告)號: | CN110879724A | 公開(公告)日: | 2020-03-13 |
| 發明(設計)人: | S.N.卡什亞普;A.萊珀;P.博伊爾 | 申請(專利權)人: | 英特爾公司 |
| 主分類號: | G06F9/30 | 分類號: | G06F9/30;G06N3/063;G06N20/00 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 姜冰;楊美靈 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 深度 學習 其它 算法 fp16 s7e8 混合 精度 | ||
所公開的實施例涉及混合精度矢量乘?累加(MPVMAC)。在一個示例中,處理器包括取電路,所述取電路用于取壓縮指令,該壓縮指令具有用于指定具有N個經單精度格式化元素的源矢量以及具有N個經神經半精度(NHP)格式化元素的經壓縮矢量的位置的字段;解碼電路,所述解碼電路用于解碼所取的壓縮指令;執行電路,所述執行電路用于通過以下操作來響應所解碼的壓縮指令:將源矢量的每個元素轉換成NHP格式,并將每個轉換后的元素寫到對應的經壓縮矢量元素,其中處理器進一步用于取、解碼和執行MPVMAC指令,以使用16比特乘法器將對應的經NHP格式化元素相乘,并且使用32比特累加器將每個乘積與對應目的地的先前內容相累加。
技術領域
本發明的領域一般涉及計算機處理器架構,并且更具體地說,涉及用于深度學習和其它算法的FP16-S7E8混合精度。
背景技術
當今用于通過神經網絡的機器學習的許多硬件加速器在訓練和推理兩者期間主要執行矩陣乘法。用于機器學習的硬件加速器努力實現最佳原始性能數字(rawperformance number)和功率與性能比值。
機器學習架構(例如深度神經網絡)已經被應用于包括計算機視覺、圖像識別、語音識別、自然語言處理、音頻識別、社交網絡過濾、機器翻譯、生物信息學和藥物設計的領域。
矩陣乘法是用于包括機器學習的許多算法的關鍵性能/功率限制物。
對于加速指令吞吐量和提高性能的嘗試可以試圖使用縮減精度,例如IEEE-FP16(S10E5),其是一種具有10比特有效位(有時稱為尾數、系數、自變量或分數)和5比特指數的半精度浮點(FP)格式,并且在由電氣和電子工程師協會(IEEE)頒布的IEEE 754-2008標準中被定義。然而,當使用IEEE-FP16(S10E5)時,由于有效位對指數位的過度分配,IEEE-FP16(S10E5)趨于是耗時的、需要專家知識、并且可能產生比通過例如單精度所獲得的超參數更不積極(即,訓練更慢)的超參數(即,在訓練過程前固定并且在訓練過程期間或作為訓練過程的結果而不改變的屬性)。
附圖說明
本發明通過示例而非限制的方式在附圖的圖中被示出,其中相似附圖標記指示相似元件,并且在附圖中:
圖1是示出根據實施例的用于執行混合精度矢量乘-累加(MPVMAC)指令的處理組件的框圖;
圖2是示出根據實施例的用于執行混合精度矢量乘-累加(MPVMAC)指令的處理組件的框圖;
圖3是示出根據實施例的執行混合精度矢量乘-累加(MPVMAC)指令的處理器的框流程圖;
圖4A示出框圖,其示出了根據一些實施例的浮點格式;
圖4B示出了與標準半精度浮點格式相比的神經半精度(FP16-S7E8)浮點格式的增加的動態范圍;
圖5A是示出根據一些實施例的用于將格式從標準單精度轉換為神經半精度的指令的執行的框圖;
圖5B是示出執行用于將格式從標準單精度轉換為神經半精度的指令的處理器的實施例的框流程圖;
圖6A是示出根據一些實施例的用于將格式從神經半精度轉換為標準單精度的指令的執行的框圖;
圖6B是示出執行用于將格式從神經半精度轉換為標準單精度的指令的處理器的實施例的框流程圖;
圖7A是根據一些實施例的用于使用混合精度矢量乘-累加(MPVMAC)指令進行機器學習實驗的流程圖;
圖7B示出了與將5比特指數用于FP32中的累加和乘法器的CIFAR-10的非收斂相關的實驗結果;
圖7C示出了與將6比特指數和參數掃描用于尾數中比特的數量、FP32累加的CIFAR-10的收斂相關的實驗結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于英特爾公司,未經英特爾公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910717259.0/2.html,轉載請聲明來源鉆瓜專利網。





