[發明專利]領域實體抽取方法、計算機設備、計算機可讀介質及處理器有效
| 申請號: | 202010194752.1 | 申請日: | 2020-03-19 |
| 公開(公告)號: | CN113496120B | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 徐一鳴;楊衛東;李洋 | 申請(專利權)人: | 復旦大學;珠海復旦創新研究院 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242 |
| 代理公司: | 上海德昭知識產權代理有限公司 31204 | 代理人: | 盧泓宇 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 領域 實體 抽取 方法 計算機 設備 可讀 介質 處理器 | ||
1.一種領域實體抽取方法,用于構建一個能夠對漏洞描述文本中的領域實體進行自動抽取的命名實體識別模型,其特征在于,包括如下步驟:
步驟S1,基于公開的網絡安全數據庫及該網絡安全數據庫遵循的數據模式,獲取所述網絡安全數據庫中所有有關漏洞的漏洞標識號、漏洞描述文本、所述漏洞所處的平臺信息以及所述漏洞所影響的產品信息,并將所述漏洞標識號、所述平臺信息以及所述產品信息分別作為漏洞實體、產品實體以及平臺實體從而構成一個領域實體庫;
步驟S2,基于公開的漏洞缺陷枚舉庫,獲取所述漏洞的攻擊手段信息和漏洞影響信息并分別作為攻擊手段實體和影響實體的外部字典;
步驟S3,基于步驟S1所建立的所述領域實體庫以及所述外部字典對所述漏洞描述文本進行實體匹配從而抽取出每個所述漏洞描述文本中的所有領域實體;
步驟S4,使用詞性標注工具標注出每個所述漏洞描述文本中各個文本單詞的詞性;
步驟S5,將每個所述漏洞描述文本、基于步驟S1建立的所述領域實體庫中對應的所述領域實體以及描述文本單詞的詞性作為訓練用數據集,訓練出所述命名實體識別模型。
2.根據權利要求1所述的領域實體抽取方法,其特征在于:
其中,所述步驟S3中,采用BIEO標簽法標識所述漏洞描述文本中相應的所述領域實體,
若所述領域實體在外部字典和實體庫中沒有指定標簽,那么該領域實體的標簽標記為O,表示不屬于任何實體。
3.根據權利要求2所述的領域實體抽取方法,其特征在于:
其中,所述命名實體識別模型的標注結果表示為與所述步驟S3相一致的所述BIEO標簽法。
4.一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現權利要求1至3中任一項所述的領域實體抽取方法的步驟。
5.一種計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現權利要求1至3中任一項所述的領域實體抽取方法的步驟。
6.一種處理器,所述處理器用于運行程序,其中,所述程序運行時執行權利要求1至3中任一項所述的領域實體抽取方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學;珠海復旦創新研究院,未經復旦大學;珠海復旦創新研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010194752.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:諧振變壓器組合結構
- 下一篇:一種垃圾處理器控制方法及垃圾處理器





