[發明專利]網絡安全語料庫構建模型的訓練方法、應用方法及裝置有效
| 申請號: | 202110412385.2 | 申請日: | 2021-04-16 |
| 公開(公告)號: | CN112818126B | 公開(公告)日: | 2021-08-17 |
| 發明(設計)人: | 周子楠 | 申請(專利權)人: | 北京智源人工智能研究院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/295;G06N3/04 |
| 代理公司: | 北京辰權知識產權代理有限公司 11619 | 代理人: | 尹倩倩 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡安全 語料庫 構建 模型 訓練 方法 應用 裝置 | ||
本申請提出一種網絡安全語料庫構建模型的訓練方法、應用方法及裝置,該方法包括:獲取訓練集,訓練集包括標注了實體類別和戰術類別的威脅情報;搭建網絡安全語料庫的構建模型的結構,構建模型包括采用多任務深度神經網絡和雙注意力機制的戰術分類模塊;根據訓練集訓練構建模型。本申請訓練了網絡安全語料庫的構建模型,在戰術分類方面引入雙注意力機制來優化多任務深度神經網絡,提高模型的準確率和穩定性。同時還采用同義詞和戰術關鍵詞檢索進行戰術分類,提升戰術分類的魯棒性和準確性。在實體分類方面,剔除修飾性的詞,過濾冗余信息,提高計算效率,結合知識圖譜提高實體分類的準確性。實現了網絡安全領域大數據量的語料庫構建。
技術領域
本申請屬于信息安全技術領域,具體涉及一種網絡安全語料庫構建模型的訓練方法、應用方法及裝置。
背景技術
隨著大數據時代的發展和網絡安全環境的日趨復雜,出現了大量與網絡安全相關的威脅情報,如網絡告警信息、網絡監測日志、安全事件報告、安全社區博客等。將海量的威脅情報進行分類分析總結非常重要。
相關技術中,通過人工基于ATTCK(Adversarial Tactics,Techniques,andCommon Knowledge,對抗性戰術、技術和公共知識)對威脅情報進行實體及戰術類別分類,人工分類工程量巨大,效率很低。
發明內容
本申請提出一種網絡安全語料庫構建模型的訓練方法、應用方法及裝置,本申請訓練了網絡安全語料庫的構建模型,在戰術分類方面引入雙注意力機制來優化多任務深度神經網絡,提高模型的準確率和穩定性。
本申請第一方面實施例提出了一種網絡安全語料庫構建模型的訓練方法,包括:
獲取訓練集,所述訓練集包括標注了實體類別和戰術類別的威脅情報;
搭建網絡安全語料庫的構建模型的結構,所述構建模型包括采用多任務深度神經網絡和雙注意力機制的戰術分類模塊;
根據所述訓練集包括的所述威脅情報,訓練所述構建模型。
在本申請的一些實施例中,所述搭建網絡安全語料庫的構建模型的結構,包括:
將詞性標記層、實體-關系提取層、知識圖譜檢索層及實體類別輸出層依次連接,得到實體分類模塊;
將同義詞庫檢索層、關鍵詞檢索層及鏈式分類模型均與戰術類別輸出層連接,得到所述戰術分類模塊;所述鏈式分類模型包括所述多任務深度神經網絡和所述雙注意力機制;
將所述實體分類模塊和所述戰術分類模塊均與損失層連接。
在本申請的一些實施例中,所述根據所述訓練集包括的所述威脅情報,訓練所述構建模型,包括:
從所述訓練集中獲取預設數量的威脅情報;
將獲取的所述威脅情報分別輸入所述實體分類模塊和所述戰術分類模塊中;
通過所述實體分類模塊識別所述威脅情報包括的實體對應的實體類別;
通過所述戰術分類模塊識別所述威脅情報采用的戰術對應的戰術類別;
根據識別出的所述實體類別及所述戰術類別,通過所述損失層計算當前訓練周期對應的損失值。
在本申請的一些實施例中,所述通過所述實體分類模塊識別所述威脅情報包括的實體對應的實體類別,包括:
通過所述詞性標記層標記所述威脅情報中每個詞的詞性;
從所述威脅情報中剔除詞性為預設修飾詞性的詞;
通過所述實體-關系提取層提取剔除操作后的所述威脅情報中包括的實體信息;
通過所述知識圖譜檢索層確定所述實體信息對應的實體類別;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智源人工智能研究院,未經北京智源人工智能研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110412385.2/2.html,轉載請聲明來源鉆瓜專利網。





