[發明專利]一種深度學習網絡訓練系統及方法有效

申請號：	201811256456.9	申請日：	2018-10-26
公開（公告）號：	CN111105006B	公開（公告）日：	2023-08-04
發明（設計）人：	彭阿婷	申請（專利權）人：	杭州海康威視數字技術股份有限公司
主分類號：	G06N3/04	分類號：	G06N3/04;G06N3/063
代理公司：	北京柏杉松知識產權代理事務所(普通合伙) 11413	代理人：	丁蕓;項京
地址：	310051 浙***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種深度學習網絡訓練系統方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種深度學習網絡訓練系統，其特征在于，所述系統包括：客戶端、交換機、存儲服務器集群及訓練服務器集群；

所述客戶端，用于獲取用戶輸入的訓練請求，并將所述訓練請求發送至所述交換機，所述訓練請求包括硬件資源請求以及訓練任務信息；

所述交換機，用于根據所述硬件資源請求，從所述訓練服務器集群中選擇多個第一訓練服務器，所述多個第一訓練服務器的總硬件資源滿足所述硬件資源請求；發送所述訓練任務信息至各第一訓練服務器；

所述存儲服務器集群，包括多個存儲服務器；各存儲服務器，用于存儲訓練資源；

所述訓練服務器集群，包括多個訓練服務器；所述各第一訓練服務器，用于根據所述訓練任務信息，從所述存儲服務器集群中讀取訓練資源；將所述訓練資源分配至各自的容器中，以使各第一訓練服務器的容器之間進行深度學習網絡并行訓練，所述各第一訓練服務器的容器具有針對所述訓練任務信息的相同的深度學習網絡初始模型，并安裝有相同的訓練腳本運行環境；

所述多個第一訓練服務器中的任一訓練服務器，用于根據所述訓練任務信息，創建安裝有指定訓練腳本運行環境的容器，并根據所述訓練任務信息，在所述容器中搭建深度學習網絡初始模型；將所述容器鏡像至所述多個第一訓練服務器中的其他訓練服務器。

2.根據權利要求1所述的系統，其特征在于，所述客戶端，還用于提供操作系統windows共享存儲服務，以使用戶通過windows進行數據操作。

3.根據權利要求1所述的系統，其特征在于，所述客戶端、所述交換機、所述存儲服務器集群與所述訓練服務器集群之間，所述存儲服務器集群中的各存儲服務器之間，以及，所述訓練服務器集群中的各訓練服務器之間，均采用萬兆網絡互連。

4.根據權利要求1所述的系統，其特征在于，所述訓練服務器集群通過掛載方式，將所述存儲服務器集群中的所有存儲服務器均掛載至各訓練服務器上。

5.根據權利要求1所述的系統，其特征在于，所述各第一訓練服務器，采用遠程直接數據存取RDMA方式，從所述存儲服務器集群中讀取訓練資源。

6.根據權利要求1所述的系統，其特征在于，所述客戶端，還用于接收用戶在殼shell方式下輸入的自定義訓練腳本，并將所述自定義訓練腳本發送至所述交換機；

所述交換機，還用于將所述自定義訓練腳本發送至各第一訓練服務器；

各第一訓練服務器，還用于根據所述自定義訓練腳本，從所述存儲服務器集群中讀取訓練資源；將所述訓練資源分配至各自的容器中，以使各第一訓練服務器的容器之間進行深度學習網絡并行訓練。

7.根據權利要求1所述的系統，其特征在于，所述各第一訓練服務器，還用于將訓練結果發送至所述客戶端；

所述客戶端，還用于在shell目錄中存儲所述訓練結果。

8.根據權利要求1所述的系統，其特征在于，各第一訓練服務器中至少包括一個容器。

9.根據權利要求1所述的系統，其特征在于，各第一訓練服務器的容器之間通過RDMA方式交互數據。