[發明專利]一種實現模型訓練的方法、計算機存儲介質及終端在審
| 申請號: | 202310267384.2 | 申請日: | 2023-03-14 |
| 公開(公告)號: | CN116484943A | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 董穎;卞超軼 | 申請(專利權)人: | 北京啟明星辰信息安全技術有限公司;啟明星辰信息技術集團股份有限公司;北京網御星云信息技術有限公司 |
| 主分類號: | G06N3/096 | 分類號: | G06N3/096;G06N3/091;G06N3/045;G06N3/047;G06F21/57;H04L9/40 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 張建秀;曲鵬 |
| 地址: | 100193 北京市海淀區東*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實現 模型 訓練 方法 計算機 存儲 介質 終端 | ||
本文公開一種實現模型訓練的方法、計算機存儲介質及終端,包括:確定標記數據集和未標記數據集中包含的每一份數據的時間信息;根據確定的時間信息,從標記數據集和未標記數據集中選出包含第一預設組數據的第一數據;將預先訓練獲得的第一深度學習模型通過選出的第一數據進行訓練,獲得第二深度學習模型;其中,第一數據為根據時間信息確定的早于預設時刻的數據;第一數據中的每一組數據包含標記數據集中的一份數據和未標記數據集中的一份數據。本發明實施例通過確定用于模型訓練的數據的時間信息,對已有的第一深度學習模型通過早于預設時刻的數據進行進一步訓練,避免了模型訓練時發生知識遺忘問題。
技術領域
本文涉及但不限于網絡安全技術,尤指一種實現模型訓練的方法、計算機存儲介質及終端。
背景技術
近年來,網絡安全形勢依舊嚴峻,高危安全漏洞頻發,為了最小化漏洞帶來的安全風險,政企機構的安全管理員一般需要通過檢索一些權威的公開漏洞數據源和一些第三方非結構化漏洞數據源,來了解其所關注的軟件的最新漏洞情報及與之相關的威脅情報。
由于現代軟件往往依賴諸多組件,需要針對每個關注的軟件,獲取該軟件直接或間接依賴的所有組件的列表,并定期檢索該軟件及其依賴的所有組件是否存在漏洞,但是人工檢索成本高昂,容易遺漏重要漏洞情報,且存在滯后性,若沒有在漏洞披露之后的第一時間檢索到相關漏洞情報信息,錯過了最佳應急響應時間,會造成不可小覷的損失。因此,為了在第一時間提取到最準確全面的漏洞情報信息,必需借助自動化的漏洞信息提取技術,從公開的漏洞數據源中提取受影響的軟件和組件之間的依賴關系以及受影響版本等漏洞情報信息。
相關技術中的非結構化漏洞情報信息提取的研究往往基于深度學習模型,然而,在基于小批次梯度下降算法的訓練中,深度學習模型在訓練過程中會發生知識遺忘;除小批次梯度下降算法之外,動量梯度下降算法(Momentum)、自適應動量梯度下降算法(Adam,Adaptive?Momentum)和前向均方根梯度下降算法(RMSProp,Root?mean?squarepropagation)等算法,在解決自然語言處理(NLP)任務時,尤其是實體識別和關系提取等任務時,訓練集越復雜,包含的模式越多樣,就越容易發生知識遺忘;如何解決知識遺忘問題成為一個有待解決的問題。
發明內容
以下是對本文詳細描述的主題的概述。本概述并非是為了限制權利要求的保護范圍。
本發明實施例提供一種實現模型訓練的方法、計算機存儲介質及終端,能夠避免模型訓練時發生知識遺忘問題。
本發明實施例提供了一種實現模型訓練的方法,包括:
確定標記數據集和未標記數據集中包含的每一份數據的時間信息;
根據確定的時間信息,從標記數據集和未標記數據集中選出包含第一預設組數據的第一數據;
將預先訓練獲得的第一深度學習模型通過選出的第一數據進行訓練,獲得第二深度學習模型;
其中,所述第一數據為根據時間信息確定的早于預設時刻的數據;所述第一數據中的每一組數據包含所述標記數據集中的一份數據和所述未標記數據集中的一份數據。
另一方面,本發明實施例還提供一種計算機存儲介質,所述計算機存儲介質中存儲有計算機程序,所述計算機程序被處理器執行時實現上述實現模型訓練的方法。
再一方面,本發明實施例還提供一種終端,包括:存儲器和處理器,所述存儲器中保存有計算機程序;其中,
處理器被配置為執行存儲器中的計算機程序;
所述計算機程序被所述處理器執行時實現如上述實現模型訓練的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京啟明星辰信息安全技術有限公司;啟明星辰信息技術集團股份有限公司;北京網御星云信息技術有限公司,未經北京啟明星辰信息安全技術有限公司;啟明星辰信息技術集團股份有限公司;北京網御星云信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310267384.2/2.html,轉載請聲明來源鉆瓜專利網。





