[發明專利]一種基于深度學習的網絡威脅情報自動抽取方法有效
| 申請號: | 202010364312.6 | 申請日: | 2020-04-30 |
| 公開(公告)號: | CN111552855B | 公開(公告)日: | 2023-08-25 |
| 發明(設計)人: | 李小勇;武涵;高雅麗;郭寧 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9535;G06N3/0442;G06N3/045;G06N3/047;G06N3/048;G06N3/084 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 丁蕓;馬敬 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 網絡 威脅 情報 自動 抽取 方法 | ||
本發明實施例提供了一種基于深度學習的網絡威脅情報自動抽取方法,能夠獲取情報源數據,并判斷情報源數據的數據結構類型;若數據結構類型為非結構化類型,則將情報源數據輸入預先訓練的情報實體識別模型,得到情報源數據中的各情報實體,情報實體識別模型為利用情報樣本數據,基于預先設置的字與字的前后位置約束條件,訓練得到的神經網絡模型;按照預先設置的組合形式,將各情報實體組合得到網絡威脅情報。應用本發明可以利用預先訓練的情報實體識別模型進行網絡威脅情報的自動抽取,而情報實體識別模型在訓練時引入的位置約束條件限制情報實體中字與字的前后位置關系,因此減少情報實體亂序的結果出現,從而提高網絡威脅情報識別的準確率。
技術領域
本發明涉及網絡安全技術領域,特別是涉及一種基于深度學習的網絡威脅情報自動抽取方法。
背景技術
隨著互聯網技術的飛速發展,各種數據上傳至互聯網中,網絡信息安全成為各種組織關注的一個重點,為了避免自身受到威脅,需要對攻擊者的攻擊行為做出防御。網絡安全防御手段中,利用已知的網絡威脅情報對未知威脅的攻擊行為等進行防御是一種以檢測和分析為手段的主動防御方式。威脅情報是基于證據的知識,包括場景、機制、指標、含義和可操作的建議,這些知識是與面臨的威脅相關的情報信息,其中有證據表明組織可能將會遭受威脅。網絡威脅情報是可以從網絡中獲取的威脅情報,在網絡中獲取威脅情報的源數據(即原始來源的數據信息),經過數據處理和數據分析,實現情報抽取,生成可機讀或人讀的標準化情報。依照數據存在形式,網絡威脅情報的源數據可以分三種類型:非結構化情報源數據、半結構化情報源數據以及結構化情報源數據。
對于非結構化情報源數據,比如網頁、郵件、文檔等,需要將其轉化為自然語言,從自然語言中識別出多個情報實體,對多個情報進行組合實現情報抽取。一般情報抽取流程為:利用帶有標簽標注的文本數據集,訓練神經網絡模型,利用訓練好的神經網絡模型進行情報實體識別,情報實體可以但不局限于是人名、地名、組織機構名等。當前進行情報抽取的方法易出現情報實體亂序的預測結果,使得網絡威脅情報識別準確率低。
發明內容
本發明實施例的目的在于提供一種基于深度學習的網絡威脅情報自動抽取方法,以提高網絡威脅情報識別的準確率。具體技術方案如下:
第一方面,本發明實施例提供一種基于深度學習的網絡威脅情報自動抽取方法,所述方法包括:
獲取情報源數據,并判斷所述情報源數據的數據結構類型;
若所述數據結構類型為非結構化類型,則將所述情報源數據輸入預先訓練的情報實體識別模型,得到所述情報源數據中的各情報實體,所述情報實體識別模型為利用情報樣本數據,基于預先設置的字與字的前后位置約束條件,訓練得到的神經網絡模型,所述情報實體為多個字或單個字組成的信息;
按照預先設置的組合形式,將所述各情報實體組合得到網絡威脅情報。
本發明實施例提供一種基于深度學習的網絡威脅情報自動抽取方法,能夠獲取情報源數據,并判斷情報源數據的數據結構類型;若數據結構類型為非結構化類型,則將情報源數據輸入預先訓練的情報實體識別模型,得到情報源數據中的各情報實體,情報實體識別模型為利用情報樣本數據,基于預先設置的字與字的前后位置約束條件,訓練得到的神經網絡模型,情報實體為多個字或單個字組成的信息;按照預先設置的組合形式,將各情報實體組合得到網絡威脅情報。
本發明實施例有益效果:
本發明實施例提供的基于深度學習的網絡威脅情報自動抽取方法,可以利用預先訓練的情報實體識別模型進行網絡威脅情報的自動抽取,而情報實體識別模型在訓練時引入了字與字的前后位置約束條件,該位置約束條件限制情報實體中字與字的前后位置關系,因此減少情報實體亂序的結果出現,從而提高網絡威脅情報識別的準確率。
當然,實施本發明的任一產品或方法并不一定需要同時達到以上所述的所有優點。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010364312.6/2.html,轉載請聲明來源鉆瓜專利網。





