[發明專利]適配訓練設備資源的神經網絡模型訓練方法及裝置在審
| 申請號: | 201910562751.5 | 申請日: | 2019-06-26 |
| 公開(公告)號: | CN112149817A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 羅玄;陳茂森;黃君實 | 申請(專利權)人: | 北京奇虎科技有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 設備 資源 神經網絡 模型 方法 裝置 | ||
本發明公開了一種適配訓練設備資源的神經網絡模型訓練方法及裝置、計算設備、存儲介質,方法包括:獲取神經網絡模型的批處理參數;根據批處理參數和訓練設備資源,確定是否對批處理參數進行修改;若是,則根據修改后的批處理參數計算神經網絡模型的前向傳播次數;根據修改后的批處理參數將訓練樣本批量輸入至神經網絡模型,并根據前向傳播次數進行多次前向傳播;對多次前向傳播得到的梯度偏差進行累加,利用累加的梯度偏差進行后向反饋以調整神經網絡模型。利用本發明,可以基于訓練設備本身的資源,針對神經網絡模型修改得到合適于訓練設備的神經網絡模型的訓練方式,無需對訓練設備進行硬件的擴充、算法修改等操作,節省成本,也更易于實施。
技術領域
本發明涉及軟件領域,具體涉及一種適配訓練設備資源的神經網絡模型訓練方法及裝置、計算設備、計算機存儲介質。
背景技術
對神經網絡進行訓練時,為了得到更準確的訓練結果,往往需要大量的訓練樣本來進行訓練。而大量的訓練樣本在訓練時會直接影響到GPU內存的使用情況。低配置設備中的GPU內存較小,其無法直接支撐運行大量的訓練樣本。如低配置設備的GPU內存最高為24G,而大量的訓練樣本其可能高達40G的數據,甚至400G的數據。低配置設備無法做到一次運行大量的訓練樣本。
現有技術中在低配置設備上運行大量的訓練樣本時,一般采用如對低配置設備的硬件進行調整的方式,如增加GPU內存,但這種方式成本較高;或者,采用在訓練時對代碼進行改編,降低運行所占用的GPU內存,但這種方式對技術要求較高。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的適配訓練設備資源的神經網絡模型訓練方法及裝置、計算設備、計算機存儲介質。
根據本發明的一個方面,提供了一種適配訓練設備資源的神經網絡模型訓練方法,其包括:
獲取神經網絡模型的批處理參數;
根據批處理參數和訓練設備資源,確定是否對批處理參數進行修改;若是,則根據修改后的批處理參數計算神經網絡模型的前向傳播次數;
根據修改后的批處理參數將訓練樣本批量輸入至神經網絡模型,并根據前向傳播次數進行多次前向傳播;
對多次前向傳播得到的梯度偏差進行累加,利用累加的梯度偏差進行后向反饋以調整神經網絡模型。
根據本發明的另一方面,提供了適配訓練設備資源的神經網絡模型訓練裝置,其包括:
獲取模塊,適于獲取神經網絡模型的批處理參數;
修改模塊,適于根據批處理參數和訓練設備資源,確定是否對批處理參數進行修改;若是,則根據修改后的批處理參數計算神經網絡模型的前向傳播次數;
前向傳播模塊,適于根據修改后的批處理參數將訓練樣本批量輸入至神經網絡模型,并根據前向傳播次數進行多次前向傳播;
后向反饋模塊,適于對多次前向傳播得到的梯度偏差進行累加,利用累加的梯度偏差進行后向反饋以調整神經網絡模型。
根據本發明的又一方面,提供了一種計算設備,包括:處理器、存儲器、通信接口和通信總線,處理器、存儲器和通信接口通過通信總線完成相互間的通信;
存儲器用于存放至少一可執行指令,可執行指令使處理器執行上述適配訓練設備資源的神經網絡模型訓練方法對應的操作。
根據本發明的再一方面,提供了一種計算機存儲介質,存儲介質中存儲有至少一可執行指令,可執行指令使處理器執行如上述適配訓練設備資源的神經網絡模型訓練方法對應的操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司,未經北京奇虎科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910562751.5/2.html,轉載請聲明來源鉆瓜專利網。





