[發明專利]一種可擴展的分布式GPU加速方法及裝置在審

申請號：	201611215270.X	申請日：	2016-12-26
公開（公告）號：	CN106846236A	公開（公告）日：	2017-06-13
發明（設計）人：	張中海;譚光明	申請（專利權）人：	中國科學院計算技術研究所;中國科學院國有資產經營有限責任公司
主分類號：	G06T1/20	分類號：	G06T1/20;G06N3/04
代理公司：	北京律誠同業知識產權代理有限公司11006	代理人：	祁建國,李巖
地址：	100080 北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種擴展分布式 gpu 加速方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種可擴展的分布式GPU加速裝置，其特征在于，包括：

多個節點，所述節點包括CPU、多個GPU，所述CPU與所述GPU進行數據交互，多個所述節點之間通過InfiniBand進行連接，所述CPU控制所述GPU。

2.如權利要求1所述的可擴展的分布式GPU加速裝置，其特征在于，所述節點上GPU與CPU通過主板進行連接。

3.如權利要求1所述的可擴展的分布式GPU加速裝置，其特征在于，每個所述節點獲取自己對應的訓練數據，將所述訓練數據分為多個批次數據，每個所述批次數據中包含多個數據，作為一次訓練的輸入，每個GPU作為一個單獨的計算單元，分別處理相應的所述批次數據。

4.如權利要求1所述的可擴展的分布式GPU加速裝置，其特征在于，每個所述節點中的CPU負責把每個GPU計算的誤差矩陣更新到全局的權值矩陣。

5.如權利要求1所述的可擴展的分布式GPU加速裝置，其特征在于，當某一節點的所有GPU處理完一輪批次數據后，所述某一節點與其他節點進行通信，將處理完成的批次數據發送到對應的節點，進行全局更新。

6.如權利要求1所述的可擴展的分布式GPU加速裝置，其特征在于，所述可擴展的分布式GPU加速裝置的架構采用對等模式。

7.一種利用如權利要求1-5所述可擴展的分布式GPU加速裝置的加速方法，其特征在于，主進程啟動后，進行初始化并讀取所述節點分到的批次數據，設置兩個線程負責CPU與GPU的通信，所述兩個線程包括Download線程與Upload線程，第一次迭代時，CPU準備好初始的參數W權值矩陣，Download線程讀取參數W矩陣并將其下載到GPU的內存中，并通知GPU計算線程數據已經準備好，然后進入阻塞狀態，等待下一輪計算開始，GPU計算完成參數W矩陣后，通知Upload線程，Upload線程將誤差矩陣dW從GPU內存傳輸到CPU內存，并通知CPU進行參數W矩陣的更新，然后進入阻塞狀態，等待下一輪計算結束，CPU更新參數W矩陣后，通知Download線程，進行第二輪計算，直到所有數據計算結束。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所;中國科學院國有資產經營有限責任公司，未經中國科學院計算技術研究所;中國科學院國有資產經營有限責任公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201611215270.X/1.html，轉載請聲明來源鉆瓜專利網。