[發明專利]用于訓練神經網絡的設備、方法和集成電路板卡在審
| 申請號: | 201911357761.1 | 申請日: | 2019-12-25 |
| 公開(公告)號: | CN111144559A | 公開(公告)日: | 2020-05-12 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 上海寒武紀信息科技有限公司 |
| 主分類號: | G06N3/063 | 分類號: | G06N3/063;G06N3/08 |
| 代理公司: | 北京維昊知識產權代理事務所(普通合伙) 11804 | 代理人: | 李波;孫新國 |
| 地址: | 201306 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 訓練 神經網絡 設備 方法 集成電路 板卡 | ||
本披露公開了用于訓練神經網絡的設備、方法和集成電路板卡,其中該設備以包括在組合處理裝置中的計算裝置來體現,該組合處理裝置還可以包括通用互聯接口和其他處理裝置。所述計算裝置與其他處理裝置進行交互,共同完成用戶指定的計算操作。組合處理裝置還可以包括存儲裝置,該存儲裝置分別與計算裝置和其他處理裝置連接,用于該計算裝置和其他處理裝置的數據。本披露的方案可以加速對神經網絡的訓練。
技術領域
本披露一般地涉及人工智能領域。更具體地,本披露涉及用于通過硬件平臺來訓練神經網絡的方法、設備和集成電路板卡。
背景技術
隨著人工智能領域技術的不斷發展,如何高效地訓練神經網絡以獲得良好的神經網絡模型成為當前關注的一個焦點。現有的神經網絡在訓練中通常采用浮點型數據來執行運算以期獲得好的訓練結果。盡管浮點型數據具有相對較高的數據精度,但在訓練過程中會對運行神經網絡的硬件平臺提出更高的硬件要求,例如更大的存儲空間、更高的功耗。另外,在一些訓練場景中,使用精度相對較低的數據類型也同樣可以達到與浮點型數據相同或近似的訓練效果,從而使得應用浮點型數據在一些情況下并不必要。
發明內容
為了解決在上文中所提到的一些或全部的問題,提供一種對神經網絡進行高效訓練的方式,本披露在多個方面中提供了如下的技術方案。
在一個方面中,本披露提供一種用于訓練神經網絡的設備,包括至少一個處理器,其配置用于執行所述神經網絡的迭代訓練中的運算操作;輸入輸出接口,用于與所述設備外部的片外系統進行雙向數據傳輸,其中在迭代訓練所述神經網絡的權值更新操作中,所述至少一個處理器還配置用于:使用高精度數據格式表示的權值數據對權值進行更新,以獲得更新后的高精度數據格式表示的權值;以及將所述更新后的高精度數據格式表示的權值轉換成定點型權值,以用于所述神經網絡的下一次迭代訓練。
在另一個方面中,本披露提供一種用于訓練神經網絡的方法,其實現于訓練設備中,該訓練設備包括至少一個處理器。該方法包括在訓練所述神經網絡的權值更新操作中,使用高精度數據格式表示的權值數據并且通過至少一個處理器對權值進行更新,以獲得更新后的高精度數據格式表示的權值。該方法還包括利用所述至少一個處理器將所述更新后的高精度數據格式表示的權值轉換成定點型權值,以用于所述神經網絡的下一次迭代訓練。
在又一方面中,本披露提供一種用于訓練神經網絡的設備。該設備包括至少一個處理器。該設備還包括至少一個存儲器,其用于存儲程序指令,當所述程序指令由所述至少一個處理器執行時,使得所述設備執行前述的方法和在下文所描述的該方法的多個實施例。
在一個方面中,本披露提供一種計算機可讀存儲介質,包括用于通過硬件平臺來訓練神經網絡的程序指令,當程序指令由至少一個處理器運行時,執行前述的方法和在下文所描述的該方法的多個實施例。在又一個方面中,本披露還提供一種集成電路板卡,包括如上所述的任意一設備。
通過上述用于訓練神經網絡的設備、方法和計算機可讀存儲介質,在訓練神經網絡的迭代訓練中,本披露的方案可以在神經網絡訓練的前向和反向傳播過程中的一個或多個層(或一個或多個神經元節點),使用定點數來進行神經網絡的相關運算例如乘加操作,從而加速神經網絡的訓練過程并減小功耗。在一些應用場景中,本披露的方案還支持對執行量化操作后的數據進行復用的功能,從而減小將數據從高精度數據類型的數據量化到定點型數據的多次量化化操作,進一步縮短訓練時間。另外,通過經本披露方案所訓練的神經網絡,其可以被廣泛運用于圖像處理、語音識別、數據采集等各類領域,極大地改善相關領域的效率成本。
附圖說明
通過結合附圖,可以更好地理解本發明的上述特征,并且其眾多目的,特征和優點對于本領域技術人員而言是顯而易見的,其中相同的附圖標記表示相同的元件,并且其中:
圖1是示出可以應用本披露的技術方案的神經網絡的示例性框圖;
圖2是示出根據本披露實施例的神經網絡中相關算子操作的示例性流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海寒武紀信息科技有限公司,未經上海寒武紀信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911357761.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:香薰結構和電風扇
- 下一篇:對神經網絡執行訓練的設備及其集成電路板卡





