[發明專利]基于知識圖譜的工控系統攻擊線索發現系統有效
| 申請號: | 202011168061.0 | 申請日: | 2020-10-28 |
| 公開(公告)號: | CN112468440B | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 賴英旭;周昆;劉靜 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;G06F40/284;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 圖譜 系統 攻擊 線索 發現 | ||
1.基于知識圖譜的工控系統攻擊線索發現系統,其特征在于:構建工控系統漏洞利用知識圖譜從漏洞利用的角度提供攻擊線索和知識圖譜的構建方法;工控系統漏洞利用知識圖譜的構建包括如下步驟:
1)知識圖譜模式層構建,根據應用場景確定抽取的實體和實體間關系,用于指導數據層構建;
2)利用網絡爬蟲從NVD、CNVD、CNNVD漏洞庫中獲取漏洞和設備數據,并獲取相關漏洞描述和根據廠商公告鏈接獲取廠商公告;
3)步驟2)獲取的漏洞描述和廠商公告為非結構化文本數據,使用線性鏈條件隨機場抽取攻擊方法和攻擊結果信息;
4)多元數據抽取的信息會存在“多詞一意”的情況,使用一種基于規則和相似度計算的實體對齊框架進行實體對齊;
5)構建的知識圖譜存在實體關系缺失的問題,使用一種基于預訓練模型的負樣本潛在正確概率知識推理算法補全知識圖譜實體間關系;
在步驟5)中所使用的知識推理方法;首先利用知識圖譜中的三元組隨機替換產生負三元組預訓練TransE模型,用預訓練模型計算負三元組的潛在正確概率,通過類型限定去除負三元組中摻雜的無意義負三元組;然后使用包含潛在正確概率負三元組的數據訓練的TransE模型作為知識推理模型;
翻譯模型的得分公式是:f(h,r,t)=||h+r-t||1/2,其中h,r,t分別表示頭實體、關系和尾實體的向量表示,1和2分別表示L1范數和L2范數;利用該得分公式定義負三元組潛在正確概率為:在每個負三元組都得到潛在正確概率之后用于再次訓練TransE模型,將負樣本潛在正確概率的概念加入到計算過程,目標函數為:其中S為正三元組集合,S'為負三元組集合,δ為負三元組潛在正確概率,λ為模型的超參數;將本次訓練的TransE模型作為知識推理的模型。
2.根據權利要求1所述的基于知識圖譜的工控系統攻擊線索發現系統,其特征在于,步驟1)構建的知識圖譜模式層是:從三個不同的維度結合工控具體場景得到工控系統攻擊線索發現概念集合C={Vendor、Device、Vulnerability、Mean、Consequence};Vendor:廠商、Device:工控系統設備、Vulnerability:設備漏洞、Mean:漏洞利用攻擊方法、Consequence:攻擊造成的異常結果;概念之間的關系R={produce、have、show、cause、use、kind-of、lead-to},分別為廠商和設備之間的生產關系、設備與漏洞之間的擁有關系、設備與攻擊異常之間的表現關系、漏洞與攻擊異常之間的造成關系、攻擊方法與漏洞之間的利用關系、實體之間層級關系、攻擊結果與攻擊結果之間的因果關系。
3.根據權利要求1所述的基于知識圖譜的工控系統攻擊線索發現系統,其特征在于,步驟3)所使用的基于條件隨機場的攻擊方法和攻擊結果命名實體識別方法;攻擊方法和攻擊結果實體長度差別較大,存在大量的嵌套和別名,為了保證抽取實體的完整性,引入實體上下文環境特征并確定了最佳的特征組合:
1)詞特征;文本分詞后產生的每個詞本身作為一種特征,該特征可以較完整的反應文本的基本信息;
2)詞性特征;在文本分詞的過程中同時對每個詞進行詞性標注,使用的詞性包括動詞、名詞、介詞在內的20余種詞性特征;
3)實體邊界特征;采用BIEOS標注法對語料進行標注;
4)實體前后關鍵詞特征;一些關鍵詞的前面或后面出現攻擊方法和攻擊結果實體,用于實體識別的特征;
5)實體高頻詞特征;很多攻擊方法和攻擊結果實體中出現某些單詞的概率很高,對識別有觸發作用。
4.根據權利要求1所述的基于知識圖譜的工控系統攻擊線索發現系統,其特征在于,在步驟4)中所使用的實體對齊框架;該框架通過分析攻擊方法和攻擊結果實體產生“多詞一意的原因”,針對縮寫、同義詞替換、拼寫錯誤、符號原因造成的“多詞一意”進行有針對性的實體對齊;其流程包括,
步驟31,構造英文縮寫的規則;
步驟32,根據步驟31的規則判斷輸入的兩個實體是否一個是另一個的縮寫形式;
步驟33,若不是縮寫引起的“多詞一意”,對實體進行標準化;
步驟34,提取實體的詞干;
步驟35,去除實體中包含的停止詞;
步驟36,利用WordNet對實體中單詞逐個進行同義詞替換,判斷兩實體是否因同義詞替換造成的“多詞一意”;
步驟37,若不是同義詞替換引起的,則計算兩實體的相似度,包括Edit distance、Jaro-Winkler、ISUB、Jaccard四種相似度;
步驟38,使用Sigmoid函數聚合四種相似度作為綜合相似度;
步驟39,判斷綜合相似度是否大于閾值,大于則為同一實體,否則為兩個不同的實體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011168061.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種市政交通用攝像頭雨水污垢清理裝置
- 下一篇:一種含二十四環的可展耦合機構





