[發明專利]基于領域實體提取和關聯分析的信息溯源方法及裝置有效
| 申請號: | 202010533329.X | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN111737488B | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 李歡麗;熊英超;張玉林;李興國 | 申請(專利權)人: | 南京中孚信息技術有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/951 |
| 代理公司: | 南京中盟科創知識產權代理事務所(特殊普通合伙) 32279 | 代理人: | 江冬萍 |
| 地址: | 210000 江蘇省南京市浦口區江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 領域 實體 提取 關聯 分析 信息 溯源 方法 裝置 | ||
1.一種基于領域實體提取和關聯分析的信息溯源方法,其特征在于,包括:
爬取網絡中目標文件的流轉數據作為原始數據;
對所述原始數據進行實體抽取處理獲取實體數據,對所述原始數據中的所述實體數據進行關系抽取處理獲取關系數據,對所述實體數據和所述關系數據進行關聯處理,獲取預設實體關系模型;
在所述預設實體關系模型輸入查詢實體后,獲取初始查詢結果;
其中,所述原始數據包括結構化告警信息和非結構化告警信息;
所述對所述原始數據中的所述實體數據進行關系抽取處理獲取關系數據,包括:
對所述結構化告警信息中的所述實體數據進行關系抽取處理,獲取第一關系數據;
對所述非結構化告警信息中的所述實體數據進行關系抽取處理,獲取第二關系數據;
根據所述第一關系數據和所述第二關系數據,獲取所述關系數據;
所述對所述非結構化告警信息中的所述實體數據進行關系抽取處理,獲取第二關系數據,包括:
統計每行所述非結構化告警信息中的所述實體數據中包含實體類型和實體數據的個數,獲取每行的類型數量和實體數量;
若所述類型數量大于或等于2,獲取該行所述實體類型對應的實體數據,根據所述實體類型和所述實體數據獲取第一實體關系;
若所述類型數量和所述實體數量等于1,判斷與該行相鄰行的所述類型數量和所述實體數量是否等于1;
若是,根據所述實體類型和所述實體數據跨行建立關聯關系,獲取第二實體關系,若否,刪除該行的所述實體類型和所述實體數據;
根據所述第一實體關系和第二實體關系,獲取第二初始關系數據;
根據預設實體關系表對所述第二初始關系數據進行剔除處理,獲取所述第二關系數據。
2.根據權利要求1所述的方法,其特征在于,所述對所述原始數據進行實體抽取處理獲取實體數據,包括:
對所述原始數據進行命名實體識別處理,獲取所述實體數據,其中,所述實體數據的實體類型包括IP、QQ、email、人名、身份證、手機號碼、座機號碼、公司和政府機構。
3.根據權利要求2所述的方法,其特征在于,所述對所述結構化告警信息中的所述實體數據進行關系抽取處理,獲取第一關系數據,包括:
獲取所述結構化告警信息中的有效表頭;
根據所述有效表頭對每一行所述結構化告警信息中的所述實體數據進行一致性查詢處理,獲取有效實體數據;
獲取所述結構化告警信息中每一行中任意兩兩所述有效實體數據之間的第一初始關系數據;
根據預設實體關系表對所述第一初始關系數據進行剔除處理,獲取所述第一關系數據,其中,所述預設實體關系表包括兩兩所述實體數據之間的共聯關系。
4.根據權利要求1所述的方法,其特征在于,所述在所述預設實體關系模型輸入查詢實體后,獲取初始查詢結果,包括:
根據所述預設實體關系模型對所述查詢實體進行多次查詢處理,獲取所述初始查詢結果;
其中,在每次查詢處理后,對重復的實體數據進行聚合處理。
5.根據權利要求1所述的方法,其特征在于,在所述獲取初始查詢結果之后,還包括:
根據預設條件對所述初始查詢結果進行篩選處理,獲取最終查詢結果;
顯示所述最終查詢結果。
6.根據權利要求5所述的方法,其特征在于,所述根據預設條件對所述初始查詢結果進行篩選處理,獲取最終查詢結果,包括:
根據所述初始查詢結果中實體數據的關聯度對所述初始查詢結果進行篩選處理,獲取所述最終查詢結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京中孚信息技術有限公司,未經南京中孚信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010533329.X/1.html,轉載請聲明來源鉆瓜專利網。





