[發明專利]一種基于知識圖譜的漏洞知識庫構建方法在審
| 申請號: | 201910909082.4 | 申請日: | 2019-09-25 |
| 公開(公告)號: | CN110688456A | 公開(公告)日: | 2020-01-14 |
| 發明(設計)人: | 曾穎明;陳志浩;趙磊;王斌;姚金利;海然 | 申請(專利權)人: | 北京計算機技術及應用研究所 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06F40/295 |
| 代理公司: | 11011 中國兵器工業集團公司專利中心 | 代理人: | 王雪芬 |
| 地址: | 100854*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 漏洞發現 漏洞知識庫 構建 圖譜 網絡安全技術 可視化交互 安全漏洞 輔助用戶 軟件系統 同一框架 網絡協議 異構數據 知識融合 知識篩選 融合 數據源 知識源 自學習 推理 消歧 整合 抽取 協同 驗證 查找 漏洞 更新 加工 展示 分析 發現 | ||
1.一種基于知識圖譜的漏洞知識庫構建方法,其特征在于,包括以下步驟:
步驟1:漏洞知識的收集;
步驟2:對收集的漏洞知識進行提取和清洗;
步驟3:對步驟2處理得到的漏洞數據實現知識圖譜化。
2.如權利要求1所述的方法,其特征在于,步驟1具體為:從多個數據源獲取計算機相關知識、網絡安全相關知識、攻擊規則、軟件漏洞樣本、網絡威脅情報、攻擊規則及漏洞數據;其中,攻擊規則包含已經存在的攻擊的詳細信息,包括攻擊名稱、攻擊類型、協議、攻擊特點、攻擊描述、嚴重性;漏洞數據包含已發現漏洞的詳細信息,包括漏洞名稱、漏洞描述、漏洞優先級、破壞方法、同源性特征;還使用人工標注的方法對樣本軟件進行漏洞標注,將漏洞存在的執行路徑標記為脆弱路徑,隨后使用遺傳算法進行脆弱路徑制導測試,得到包含軟件脆弱路徑及測試用例的漏洞發掘樣本數據。
3.如權利要求1所述的方法,其特征在于,步驟2具體為:將通過步驟1得到的數據首先進行歸并、去重、歸一化這些清洗處理;將分散的知識結構化為計算機可理解的知識庫;還對原始數據進行的預處理和數據聚合、壓縮,排序,刪除重復信息、糾正存在的錯誤,并提供數據一致性處理。
4.如權利要求1所述的方法,其特征在于,步驟3中,將知識圖譜作為最終產生的結構化知識庫表現形式,將漏洞知識庫中的知識看作一個五元組模型,該模型包含:概念、實例、關系、屬性和規則;知識圖譜用于描述真實世界中存在的各種實體或概念,其中,每個實體或概念用一個全局唯一確定的ID來標識,稱為標識符,每個屬性-值對用于表征實體的內在特性,而關系用于連接兩個實體,描述它們之間的關聯。
5.如權利要求4所述的方法,其特征在于,步驟3中,在知識圖譜的構建中包括兩個不同的階段,第一階段是從數據源中抽取知識的過程,稱為主體抽取與屬性抽取;第二階段是將知識聚合的過程,稱為關系抽取;第一階段使用基于規則與機器學習的知識抽取方法從收集到的海量數據中抽取可用作于知識的概念信息。
6.如權利要求5所述的方法,其特征在于,所述第一階段具體分為以下五個步驟:
步驟3.1:對計算機漏洞領域的概念和概念之間的關系進行定義;并使用包含上下文計算符和布爾關系計算符的生成文法描述概念和概念之間的關系的規則;
步驟3.2:基于步驟3.1中生成的規則對海量數據進行知識抽取,抽取出匹配概念和概念之間關系的文本,包括CVE編號、github源代碼、svn信息泄漏、敏感文件、數據庫配置文件、網站源碼、敏感文件目錄和郵箱命名規則;
步驟3.3:基于步驟3.2中抽取出的匹配概念和概念之間關系的文本,對機器學習方法進行訓練,從而得到更多的概念和概念之間的關系,并實時不斷地抽取和生成的各種實體及實體間的關系,并提供實體下鉆功能,所述實體下鉆是指能夠不斷地以一個實體為中心,不斷擴線分析出與之相關聯的其他實體;
步驟3.4:基于步驟3.3中得到的更多的概念和概念之間的關系,進行知識抽取,對抽取的結果進行標注,并對知識抽取時的精確率、召回率進行評判,將精確率、召回率作為評價標準;
步驟3.5:重復步驟3.3和步驟3.4,直至所述評價標準達到預設的標準。
7.如權利要求5所述的方法,其特征在于,所述第二階段的關系抽取的過程是進行實體之間關系的抽取,其中采用詞序列復合核函數實現知識聚合,來最大化地利用多源信息,詞序列復合核函數的思想是根據兩個詞序列中的公共子序列數量來衡量兩者相似度子序列中可能包含間隔項,利用衰減因子為每個公共子序列設置不同的權重。
8.如權利要求1所述的方法,其特征在于,在步驟3之后還包括步驟4:提供漏洞知識庫的查詢支持。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京計算機技術及應用研究所,未經北京計算機技術及應用研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910909082.4/1.html,轉載請聲明來源鉆瓜專利網。





