[發明專利]模型訓練過程異常檢測方法、裝置、設備及存儲介質在審
| 申請號: | 202310893103.4 | 申請日: | 2023-07-20 |
| 公開(公告)號: | CN116628508A | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 王金钖;張海俊;胡文龍;吳婷;汪錦想;潘青華;于振華;胡國平;劉聰;魏思;王士進;劉權 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王雨 |
| 地址: | 230088 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 過程 異常 檢測 方法 裝置 設備 存儲 介質 | ||
本申請公開了一種模型訓練過程異常檢測方法、裝置、設備及存儲介質,方法包括:在模型并行訓練過程中,按照設定周期記錄訓練效率數據,該訓練效率數據表示在一個周期內集群中各設備節點對訓練數據的使用效率。當集群中存在異常的設備節點時,該異常設備節點對訓練數據的讀取、使用效率會大大降低,導致整個周期內記錄的訓練效率數據也偏離正常值,因此,本申請基于當前周期的訓練效率數據,確定集群在當前周期是否出現異常,可以及時準確地發現集群的異常。在確定集群在當前周期出現異常時,可以進一步啟動進程進行通信異常分析,從而確定異常通信的設備節點,協助快速發現問題節點。
技術領域
本申請涉及人工智能模型技術領域,更具體的說,是涉及一種模型訓練過程異常檢測方法、裝置、設備及存儲介質。
背景技術
在傳統神經網絡訓練任務上,訓練的集群規模較小,單個設備雖然存在出現異常的可能性,但整體任務的穩定性可控,訓練的設備少,即使出現了異常,可以直接對涉及的設備進行逐一排查檢測,并不會帶來太大的經濟損失。
但在大模型場景下,由于訓練關聯的設備數量太大,即使單個設備出錯的概率很低,這種累計造成的失敗概率非常大,且由于設備數量多,停機進行問題節點的篩選和排查難度很大,需要耗費大量的人力,這對設備的空閑浪費很高,有極大資源浪費和經濟損失。因此,有必要提供一種方案以及時發現模型訓練過程中出現的異常,并定位異常節點,協助快速發現問題節點。
發明內容
鑒于上述問題,提出了本申請以便提供一種模型訓練過程異常檢測方法、裝置、設備及存儲介質,以及時發現模型訓練過程中所出現的異常,并定位出異常節點,協助快速發現問題節點。具體方案如下:
第一方面,提供了一種模型訓練過程異常檢測方法,應用于模型訓練集群,所述集群中包含多臺設備節點,且多臺設備節點被劃分為若干通信組,訓練方法包括:
在模型并行訓練過程中,按照設定周期記錄訓練效率數據,所述訓練效率數據表示在一個周期內所述集群中各設備節點對訓練數據的使用效率;
基于當前周期的訓練效率數據,確定所述集群在當前周期是否出現異常;
在確定所述集群在當前周期出現異常時,啟動進程進行通信異常分析,以確定異常通信的設備節點。
優選地,所述按照設定周期記錄訓練效率數據,包括:
每間隔設定訓練批次batch作為一個周期,統計一個周期內所述集群中各設備節點的訓練效率數據。
優選地,所述統計一個周期內所述集群中各設備節點的訓練效率數據的過程,包括:
統計一個周期內所述集群中各設備節點單位時間內所使用的訓練數據的平均長度,作為訓效率數據。
優選地,模型采用數據并行策略進行訓練,則統計一個周期內所述集群中各設備節點單位時間內所使用的訓練數據的平均長度,作為訓效率數據的過程,按照如下公式計算:
B×S×D/T
其中,B表示輸入的批大小,S表示單個數據并行的設備上計算的輸入序列長度,D表示數據并行的維度,T表示完成前、反向計算和梯度統計的時長。
優選地,基于當前周期的訓練效率數據,確定所述集群在當前周期是否出現異常,包括:
基于歷史周期的訓練效率數據,和當前周期的訓練效率數據,計算平均訓練效率數據;
計算所述當前周期的訓練效率數據與所述平均訓練效率數據的差值,并在所述差值滿足設定差異條件時,確定所述集群在當前周期出現異常,否則,確定所述集群在當前周期未出現異常。
優選地,基于歷史周期的訓練效率數據,和/或,當前周期的訓練效率數據,計算平均訓練效率數據,包括:
將當前周期的前一歷史周期所計算得到的平均訓練效率數據乘以設定第一權重,得到第一結果;
將當前周期的訓練效率數據乘以設定第二權重,得到第二結果,所述第一權重大于所述第二權重;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310893103.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息發送方法、裝置、電子設備及介質
- 下一篇:一種PVD真空離子射流鍍膜機





