[發(fā)明專利]一種基于超級計算機的全要素模型訓練系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110311629.8 | 申請日: | 2021-03-24 |
| 公開(公告)號: | CN112882696A | 公開(公告)日: | 2021-06-01 |
| 發(fā)明(設計)人: | 孟祥飛;康波;孫華文;郭佳;李菲菲;高佑強 | 申請(專利權)人: | 國家超級計算天津中心 |
| 主分類號: | G06F8/33 | 分類號: | G06F8/33;G06F8/34;G06F8/36;G06K9/62 |
| 代理公司: | 北京鍾維聯(lián)合知識產(chǎn)權代理有限公司 11579 | 代理人: | 丁慧玲 |
| 地址: | 300457 天津市經(jīng)濟*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 超級 計算機 要素 模型 訓練 系統(tǒng) | ||
本發(fā)明涉及一種基于超級計算機的全要素模型訓練系統(tǒng),包括流程編輯器,設置于用戶終端的瀏覽器上,用于生成人工智能算法有向無環(huán)圖;參數(shù)提取器和模型映射器設置于云服務器上,云服務器與超級計算機和用戶終端通信連接,參數(shù)提取器根據(jù)預設的參數(shù)框架從有向無環(huán)圖中提取預設參數(shù);模型映射器,選擇目標深度學習框架,將所提取的預設參數(shù)映射為目標深度學習框架對應的映射數(shù)據(jù)和映射模型;代碼生成器和代碼執(zhí)行器設置于超級計算機上,代碼生成器將映射數(shù)據(jù)和映射模型動態(tài)生成可執(zhí)行的代碼;代碼執(zhí)行器運行可執(zhí)行的代碼,并生成運行結果。本發(fā)明實現(xiàn)了算法復用和框架遷移,避免多次編程,簡化了模型訓練過程,提高了模型訓練的效率,且容錯性好。
技術領域
本發(fā)明涉及超級計算機技術領域,尤其涉及一種基于超級計算機的全要素模型訓練系統(tǒng)。
背景技術
“算力、算法、數(shù)據(jù)”是驅動人工智能發(fā)展的三要素,超級計算機具備天然的巨大算力和大規(guī)模數(shù)據(jù)融合的屬性,是人工智能的基礎支撐設施。近年來,建設高效能計算基礎設施,提升超級計算中心對人工智能應用的服務支撐能力,統(tǒng)籌布局人工智能創(chuàng)新平臺方面,建立人工智能超級計算中心成為重要的發(fā)展方向。
但是,現(xiàn)有的在超級計算機上進行模型訓練的技術至少具有以下缺點:第一、每個模型都有其特定的網(wǎng)絡結構和不同的代碼內容,當模型網(wǎng)絡結構或參數(shù)發(fā)生變化,其代碼將會被重寫。這就導致在開展模型調試的過程中,新代碼將不斷被生成,編碼效率低,容錯性差,且模型文件以及其對應的數(shù)據(jù)日志文件管理難度大。第二、不同的深度學習框架使用上存在一定的差異性,例如,基于深度學習框架A編寫的算法,如果需要轉化為深度學習框架B下的算法,需要按照深度學習框架B的要求進行代碼重寫,通用性差。第三、超級計算機下模型調試難度大。
發(fā)明內容
本發(fā)明目的在于,提供一種基于超級計算機的全要素模型訓練系統(tǒng),實現(xiàn)了算法復用和框架遷移,避免多次編程,簡化了模型訓練過程,提高了模型訓練的效率,且容錯性好。
為了解決上述技術問題,本發(fā)明實施例,提供了一種基于超級計算機的全要素模型訓練系統(tǒng),包括:
流程編輯器,設置于用戶終端的瀏覽器上,用于生成人工智能算法有向無環(huán)圖;
參數(shù)提取器,設置于云服務器上,所述云服務器與超級計算機和所述用戶終端通信連接,所述參數(shù)提取器用于根據(jù)預設的參數(shù)框架從所述人工智能算法有向無環(huán)圖中提取預設參數(shù);
模型映射器,設置于所述云服務器上,用于選擇目標深度學習框架,將所提取的預設參數(shù)映射為目標深度學習框架對應的映射數(shù)據(jù)和映射模型;
代碼生成器,設置于所述超級計算機上,用于將所述映射數(shù)據(jù)和映射模型動態(tài)生成可執(zhí)行的代碼;
代碼執(zhí)行器,設置于超級計算機上,用于運行所述可執(zhí)行的代碼,并生成運行結果。
進一步的,所述系統(tǒng)還包括目標深度學習框架確定模塊,用于根據(jù)超級計算機上所配置的深度學習框架以及資源使用情況,確定所述目標深度學習框架。
進一步的,所述流程編輯器內設置有數(shù)據(jù)層、計算圖層和訓練層,所述流程編輯器在所述數(shù)據(jù)層設定訓練數(shù)據(jù)的位置,在所述計算圖層設定網(wǎng)絡結構模型的有向圖結構,在所述訓練層設定訓練計算所需資源,所述訓練計算所需資源包括節(jié)點數(shù)、訓練輪次和每輪次所需數(shù)據(jù)量大小。
進一步的,所述預設的參數(shù)框架包括數(shù)據(jù)參數(shù)、模型參數(shù)和計算資源,所述參數(shù)提取器具體用于:
從所述數(shù)據(jù)層提取所述數(shù)據(jù)參數(shù),所述數(shù)據(jù)參數(shù)包括數(shù)據(jù)源、數(shù)據(jù)格式和數(shù)據(jù)大小;
從所述計算圖層提取模型參數(shù),所述模型參數(shù)包括圖的節(jié)點組成、連接關系以及所述計算圖層中每個圖節(jié)點對應的參數(shù);
從所述訓練層中提取訓練計算所需的計算資源。
進一步的,所述映射數(shù)據(jù)為所述數(shù)據(jù)參數(shù)解析得到的目標深度學習框架對應的訓練數(shù)據(jù),包括訓練數(shù)據(jù)源、每訓練批次數(shù)據(jù)大小、增廣選項和預處理選項;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家超級計算天津中心,未經(jīng)國家超級計算天津中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110311629.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





