[發明專利]一種可擴展的分布式GPU加速方法及裝置在審
| 申請號: | 201611215270.X | 申請日: | 2016-12-26 |
| 公開(公告)號: | CN106846236A | 公開(公告)日: | 2017-06-13 |
| 發明(設計)人: | 張中海;譚光明 | 申請(專利權)人: | 中國科學院計算技術研究所;中國科學院國有資產經營有限責任公司 |
| 主分類號: | G06T1/20 | 分類號: | G06T1/20;G06N3/04 |
| 代理公司: | 北京律誠同業知識產權代理有限公司11006 | 代理人: | 祁建國,李巖 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 擴展 分布式 gpu 加速 方法 裝置 | ||
1.一種可擴展的分布式GPU加速裝置,其特征在于,包括:
多個節點,所述節點包括CPU、多個GPU,所述CPU與所述GPU進行數據交互,多個所述節點之間通過InfiniBand進行連接,所述CPU控制所述GPU。
2.如權利要求1所述的可擴展的分布式GPU加速裝置,其特征在于,所述節點上GPU與CPU通過主板進行連接。
3.如權利要求1所述的可擴展的分布式GPU加速裝置,其特征在于,每個所述節點獲取自己對應的訓練數據,將所述訓練數據分為多個批次數據,每個所述批次數據中包含多個數據,作為一次訓練的輸入,每個GPU作為一個單獨的計算單元,分別處理相應的所述批次數據。
4.如權利要求1所述的可擴展的分布式GPU加速裝置,其特征在于,每個所述節點中的CPU負責把每個GPU計算的誤差矩陣更新到全局的權值矩陣。
5.如權利要求1所述的可擴展的分布式GPU加速裝置,其特征在于,當某一節點的所有GPU處理完一輪批次數據后,所述某一節點與其他節點進行通信,將處理完成的批次數據發送到對應的節點,進行全局更新。
6.如權利要求1所述的可擴展的分布式GPU加速裝置,其特征在于,所述可擴展的分布式GPU加速裝置的架構采用對等模式。
7.一種利用如權利要求1-5所述可擴展的分布式GPU加速裝置的加速方法,其特征在于,主進程啟動后,進行初始化并讀取所述節點分到的批次數據,設置兩個線程負責CPU與GPU的通信,所述兩個線程包括Download線程與Upload線程,第一次迭代時,CPU準備好初始的參數W權值矩陣,Download線程讀取參數W矩陣并將其下載到GPU的內存中,并通知GPU計算線程數據已經準備好,然后進入阻塞狀態,等待下一輪計算開始,GPU計算完成參數W矩陣后,通知Upload線程,Upload線程將誤差矩陣dW從GPU內存傳輸到CPU內存,并通知CPU進行參數W矩陣的更新,然后進入阻塞狀態,等待下一輪計算結束,CPU更新參數W矩陣后,通知Download線程,進行第二輪計算,直到所有數據計算結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所;中國科學院國有資產經營有限責任公司,未經中國科學院計算技術研究所;中國科學院國有資產經營有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611215270.X/1.html,轉載請聲明來源鉆瓜專利網。





