[發明專利]基于遷移學習的網絡安全命名實體和關系聯合抽取方法及裝置在審
| 申請號: | 202111151177.8 | 申請日: | 2021-09-29 |
| 公開(公告)號: | CN113919351A | 公開(公告)日: | 2022-01-11 |
| 發明(設計)人: | 黃克振;連一峰;張海霞;彭媛媛;劉倩 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 湯驍罡 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 遷移 學習 網絡安全 命名 實體 關系 聯合 抽取 方法 裝置 | ||
本發明公開了一種基于遷移學習的網絡安全命名實體和關系聯合抽取方法及裝置,包括:對網絡安全威脅情報進行網絡安全命名實體及關系聯合標注,構建網絡安全威脅情報語料庫;基于自然語言語料庫預訓練深度神經網絡;將預訓練深度神經網絡與一分類器組合,構建初始聯合抽取模型;基于網絡安全威脅情報語料庫,對初始聯合抽取模型進行訓練;將目標數據輸入訓練好的聯合抽取模型,得到網絡安全命名實體和關系聯合抽取結果。本發明能夠同時標注網絡安全命名實體和關系,有效規避先實體后關系的串行抽取模式存在的誤差傳遞問題,降低網絡安全領域實體及關系抽取對專家經驗的依賴,增強模型的移植性,減少網絡安全領域內標注數據集少對模型訓練帶來的困擾。
技術領域
本發明屬于網絡安全技術領域,尤其涉及一種基于遷移學習的網絡安全命名實體和關系聯合抽取方法及裝置。
背景技術
隨著信息技術的飛速發展,網絡攻擊者可利用的零日漏洞、攻擊方法、隱藏手段均呈現出多元化和多樣化的發展趨勢。新型的攻擊趨勢帶來了嚴峻的攻擊后果,如國內外高級持續性威脅(APT,Advanced Persistent Threat)相關公開報告的數量逐年增加。新的攻擊形勢和嚴重的攻擊后果凸顯出傳統單點防護的弊端越來越明顯,無法及時準確地應對新出現的網絡安全威脅,攻防不對稱態勢也越來越嚴重。
網絡安全威脅情報作為一種針對已存在或即將出現的對資產構成威脅或危害的背景、機制、指標、影響和可以實施的防護建議等證據知識,可以為資產擁有者針對威脅或危害做出防護決策的依據,在一定程度上緩解了攻防不對稱的態勢,典型的如abuse.ch針對臭名昭著的僵尸網絡Zeus進行追蹤,并將新發現的命令和控制(CC)服務器作為結構化網絡安全威脅情報進行共享,從而對全球僵尸網絡Zeus的防御起到了重要作用。
網絡安全威脅情報按照結構形式分類,可分為結構化網絡安全威脅情報和非結構化網絡安全威脅情報,其中,結構化網絡安全威脅情報的信息準確、規范性強,但由于缺少大量的網絡安全威脅背景信息,不易與其他網絡安全威脅情報數據關聯分析;非結構化網絡安全威脅情報具有豐富的網絡安全威脅背景信息,但多以文檔報告的形式出現,在利用機器進行關聯分析之前,需將非結構化網絡安全威脅情報轉化為機讀情報,當前非結構化網絡安全威脅情報向機讀情報的轉化過程過度依賴于專家抽取經驗,移植性較差。在通用實體和關系抽取領域,多采用先抽取實體信息,然后基于抽取的實體信息進一步抽取關系,這種串行的抽取方式存在誤差傳遞的問題,例如中國專利申請CN113128227A公開了一種實體抽取方法及裝置,該專利僅能抽取實體信息,無法進行關系信息的抽取;如中國專利申請CN112926325A公開了一種基于BERT神經網絡的中文任務關系抽取,該專利僅能抽取人物關系信息,無法進行實體信息的抽取;如中國專利申請CN113158676A公開了專業實體與關系聯合抽取方法、系統及電子、中國專利申請CN111798987A公開了一種實體關系抽取方法和設備,二者均是先抽取實體信息,而后基于實體的信息進行關系抽取,存在誤差傳遞的問題;
針對上述非結構化網絡安全威脅情報向機讀情報轉化的問題,本專利提出一種基于遷移學習的網絡安全威脅情報聯合抽取方法。該方法首先利用自然語言領域語料訓練深度神經網絡結構以學習詞語特征表示向量,然后基于網絡安全威脅情報標注數據集訓練優化深度神經網絡結構,同時基于深度神經網絡結構輸出的詞語特征表示向量利用條件隨機場進行標簽分類,優化后的深度神經網絡和條件隨機場組合形成最終的網絡安全命名實體和實體間關系的抽取模型,最后,針對新的非結構化網絡安全威脅情報,利用抽取模型完成網絡安全命名實體和實體間關系的抽取,實現非結構化網絡安全威脅情報向機讀情報自動轉化的目的。
發明內容
本發明的目的是提供一種基于遷移學習的網絡安全命名實體和關系聯合抽取方法及裝置,利用自然語言領域語料和少量的網絡安全威脅情報標注數據集進行網絡安全命名實體及實體間關系的深度學習聯合抽取模型的訓練,對新的非結構化網絡安全威脅情報可以利用預訓練的深度學習聯合抽取模型進行抽取,實現非結構化網絡安全威脅情報向機讀情報的自動轉化。
本發明的技術方案包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111151177.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種低溫光學系統的調焦裝置
- 下一篇:存儲器及其讀取方法、存儲器系統





