[發明專利]一種基于深度學習的信息安全知識圖譜的自動構建方法有效
| 申請號: | 201911069823.9 | 申請日: | 2019-11-05 |
| 公開(公告)號: | CN110941716B | 公開(公告)日: | 2023-07-18 |
| 發明(設計)人: | 李博;左光勝 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36 |
| 代理公司: | 北京中創陽光知識產權代理有限責任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 信息 安全 知識 圖譜 自動 構建 方法 | ||
一種基于深度學習的信息安全知識圖譜的自動構建方法,包括以下步驟,步驟1,構建信息安全知識圖譜的本體庫;步驟2,對收集的數據基于啟發式規則的方式進行標注得到實體識別的訓練集,并設計了基于Bi?LSTM的模型結構進行學習作為實體識別的模型,從而抽取出文本的實體詞;步驟3,基于三元組知識來進行自動標注得到關系抽取的訓練集,并設計了基于注意力機制的LSTM結構作為關系抽取的模型,從而抽取出文本中的三元組(關系)。
技術領域
本發明涉及一種圖譜的自動構建方法,尤其涉及一種基于深度學習的信息安全知識圖譜的自動構建方法。
背景技術
目前的信息安全知識庫大多數采用人工維護和更新的方式進行維護,比較著名的比如CVE(公共漏洞知識庫),但CVE的更新大多采用人工手動更新的方式,不能及時地更新一些新發現地漏洞和攻擊知識,而這些知識往往都已經在第一時間發表在相關公司廠商或者安全團隊的博客里,所以有必要采用一種自動更新的方式從文本中挖掘和提取知識。
除了公開的知識庫之外,現有技術有一些研究比如Stucco,通過采用機器學習的方法從文本中提取三元組從而構建知識圖譜,在實體識別過程中采用最大熵模型基于標注的預料進行訓練從而從文本提取相關的實體,在提取實體之后,使用基于主動學習的半監督方法進行關系抽取,構建了一個信息安全的知識庫。
然而目前現有技術中存在兩個問題,第一,基于人工整理的方式,雖然具有較好的準確率,但是存在更新不及時的問題;第二,目前基于機器學習方法的研究,算法的效果不夠好,尤其是在關系抽取階段,介入了人工的輔助才能進行學習,構建過程仍然不是完全自動化。
發明內容
針對上述問題,本發明提出了一種基于深度學習的信息安全知識圖譜的自動構建方法,通過建立模型自動識別信息安全相關的實體詞以及根據上下文語義判定實體詞之間的關系。
一種基于深度學習的信息安全知識圖譜的自動構建方法,包括以下步驟,
步驟1,構建信息安全知識圖譜的本體庫;
步驟2,對收集的數據基于啟發式規則的方式進行標注得到實體識別的訓練集,并設計了基于Bi-LSTM的模型結構進行學習作為實體識別的模型,從而抽取出文本的實體詞;
步驟3,基于三元組知識來進行自動標注得到關系抽取的訓練集,并設計了基于注意力機制的LSTM結構作為關系抽取的模型,從而抽取出文本中的三元組(關系)。
進一步,所述本體庫的包括實體的類型和實體的關系,所述實體類型共12種,所述實體類型包括軟件,軟件供應商,漏洞,漏洞類型,攻擊,惡意軟件,防御工具,軟件的更新,軟件的版本,文件,代碼塊,硬件;所述關系共8種。
進一步,所述對本體庫的數據集進行標注的具體方式為,首先根據本題庫定義的實體類型,對每一種類型的實體收集詞匯構成實體詞典,然后根據實體詞典對文本句子進行標注。
進一步,采用了Bi-LSTM來對句子進行編碼的具體方式為首先將句子序列中的每個詞轉化為詞向量,然后作為LSTM的輸入,LSTM每一個STEP的輸出作為句子中對應詞的表征,Bi-LSTM從句子的兩個方向分別進行編碼,由此對于每一個詞語得到了兩個表征編碼和兩個向量分別表示該詞的上文信息和下文信息。并且使用激活函數得到類別取值的概率分布的具體方式為
zi=wTHi+b
Fi=softmax(zi),
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911069823.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種刀閘狀態非同源確定系統及方法
- 下一篇:秘密數運算轉換方法及系統
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





