[發明專利]面向威脅情報的安全知識圖譜構建方法及系統有效
| 申請號: | 201811569400.9 | 申請日: | 2018-12-21 |
| 公開(公告)號: | CN109857917B | 公開(公告)日: | 2021-07-13 |
| 發明(設計)人: | 王天;姜波;江鈞;杜翔宇;盧志剛;姜政偉 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F16/9038 | 分類號: | G06F16/9038;G06F16/904;G06F16/953;G06F9/54 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 威脅 情報 安全 知識 圖譜 構建 方法 系統 | ||
1.一種面向威脅情報的安全知識圖譜構建方法,其特征在于,包括以下步驟:
1)從網絡開放的威脅情報數據源、安全社區博客、安全報告采集威脅情報的結構化數據和非結構化數據;將采集的威脅情報的結構化數據和非結構化數據發送到消息隊列中;
2)對采集的消息隊列中的結構化數據和非結構化數據采用基于token的方式進行知識抽取,得到威脅情報實體及實體間關系;
3)構建基于圖的本體模式,其中的節點表示威脅情報實體,邊表示威脅情報實體間關系;
4)根據步驟3)構建的基于圖的本體模式,將步驟2)抽取的威脅情報實體及實體間關系存儲到圖數據庫中,形成威脅情報的知識圖譜;所述圖數據庫為分布式圖數據庫,采用面向列的數據庫HBase作為分布式圖數據庫的存儲后端;
其中,步驟2)所述采用基于token的方式進行知識抽取,得到威脅情報實體及實體間關系,包括:
步驟410,針對非結構化文本數據,讀取定義好的威脅情報實體規則和字典文件,規則使用正則表達式,對客戶端提交的文本進行標注,識別出威脅情報實體,返回標注后的token序列;
步驟440,客戶端獲得標注后的token序列后,循環遍歷,抽取出標注為威脅情報實體標簽的文本序列,即得到威脅情報實體;
步驟450,針對結構化數據,針對不同源的情報數據,分別編寫對應的規則抽取,然后根據路由鍵判斷情報源,進而使用對應的抽取接口,抽取出威脅情報實體;
步驟510,針對標注后的token序列,在token上編寫模式,支持來自字符串標準正則表達式的概念;token被表示為CoreMap類,其本質上是從屬性鍵Class到屬性值Object的映射,通過指定key和匹配的value來支持屬性匹配,每個token由[expression]指示,其中expression指定如何匹配屬性;
步驟520,循環遍歷序列,找出匹配關系模式的所有序列,映射到實體間關系;
其中,步驟3)所述基于圖的本體模式包括威脅情報實體和關系;
實體包括:AS,即自治系統;Campaign,即網絡戰役,Cert,即數字證書;Domain,即域名;Hacker Group,即黑客組織;Incident,即安全事件;IP,即網絡地址;Mail,即電子郵件;Mailbox,即電子郵箱;Organization,即組織機構;Report,即安全報告;Sample,即樣本;TTP,即戰術、技術和程序;URL,即網址;User,即身份標識;Vulnerability,即漏洞;
關系包括:use,即使用;authorize,即授權;resolve,即解析;contain,即包含;register,即注冊;host,即托管;launch,即發動;belong,即屬于;refer,即提及;communicate,即通信;target,即攻擊;send,即發送;receive,即接收。
2.根據權利要求1所述的方法,其特征在于,步驟2)使用模式匹配和自然語言處理技術進行所述知識抽取,包括:
2.1)實體抽取步驟:對結構化數據,對其數據模式進行解讀,使用模式匹配的方式識別出威脅情報實體;對非結構化文本數據,使用自然語言處理工具進行命名實體識別,抽取出威脅情報實體;
2.2)關系抽取步驟:對結構化數據,對其數據模式進行解讀,使用模式匹配的方式識別出威脅情報實體間關系;對非結構化文本數據,在識別出威脅情報實體的基礎上,使用自然語言處理工具找出滿足特定模式的文本序列,抽取出實體間關系。
3.根據權利要求1所述的方法,其特征在于,步驟3)根據根據威脅情報相關國際標準及行業經驗構建基于圖的本體模式。
4.根據權利要求1所述的方法,其特征在于,步驟4)使用JanusGraph分布式圖數據庫,采用面向列的數據庫HBase作為JanusGraph的存儲后端,使用內置的JanusGraph Server引擎作為服務器組件與客戶端交互,通過提交Gremlin語句的方式存儲威脅情報數據。
5.根據權利要求1所述的方法,其特征在于,步驟4)利用所述圖數據庫提供查詢服務和可視化展示功能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811569400.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于云計算的數據處理方法
- 下一篇:用于配電網的規劃系統





