[發明專利]基于領域實體提取和關聯分析的信息溯源方法及裝置有效
| 申請號: | 202010533329.X | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN111737488B | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 李歡麗;熊英超;張玉林;李興國 | 申請(專利權)人: | 南京中孚信息技術有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/951 |
| 代理公司: | 南京中盟科創知識產權代理事務所(特殊普通合伙) 32279 | 代理人: | 江冬萍 |
| 地址: | 210000 江蘇省南京市浦口區江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 領域 實體 提取 關聯 分析 信息 溯源 方法 裝置 | ||
本發明提供的一種基于領域實體提取和關聯分析的信息溯源方法及裝置,通過爬取網絡中目標文件的流轉數據作為原始數據;對所述原始數據進行實體抽取處理獲取實體數據,對所述原始數據中的所述實體數據進行關系抽取處理獲取關系數據,對所述實體數據和所述關系數據進行關聯處理,獲取預設實體關系模型;在所述預設實體關系模型輸入查詢實體后,獲取初始查詢結果,實現較準確的定位到與泄密相關的員工信息。當輸入要查詢的實體后,會從預設實體關系模型中查詢到相關信息,由于預設實體關系模型內包含了所有的原始數據,使得數據比較全面,且均提取了原始數據中有用信息,然后利用這些有用信息得到查詢結果,可以較準確的定位到與泄密相關的員工信息。
技術領域
本發明涉及信息處理技術,尤其涉及一種基于領域實體提取和關聯分析的信息溯源方法及裝置。
背景技術
目前,企業在監測器實際使用過程中,需要對一些有涉密的文件進行監測,以防止泄密情況出現。
現有技術中,當涉密的文件出現泄密風險時,會將涉密風險的文件會以告警的形式推薦給相關管理工作人員,以提示風險。但是,由于告警信息比較單一,所包含的有用數據較少,無法單從一個告警信息里面來明確的得知與泄密相關員工的一些有用信息,導致管理人員即使發現了確鑿的告警信息,也無法準確定位到唯一確定的員工或可能的一些員工,這使得后續的責任追究等相關措施無從實施。
因此,現有技術中無法較準確的定位到與泄密相關的員工信息。
發明內容
本發明實施例提供一種基于領域實體提取和關聯分析的信息溯源方法及裝置,可以較準確的定位到與泄密相關的員工信息。
本發明實施例的第一方面,提供一種基于領域實體提取和關聯分析的信息溯源方法,包括:
爬取網絡中目標文件的流轉數據作為原始數據;
對所述原始數據進行實體抽取處理獲取實體數據,對所述原始數據中的所述實體數據進行關系抽取處理獲取關系數據,對所述實體數據和所述關系數據進行關聯處理,獲取預設實體關系模型;
在所述預設實體關系模型輸入查詢實體后,獲取初始查詢結果。
可選地,在第一方面的一種可能實現方式中,所述對所述原始數據進行實體抽取處理獲取實體數據,包括:
對所述原始數據進行命名實體識別處理,獲取所述實體數據,其中,所述實體數據的實體類型包括IP、QQ、email、人名、身份證、手機號碼、座機號碼、公司和政府機構。
可選地,在第一方面的一種可能實現方式中,所述原始數據包括結構化告警信息和非結構化告警信息;
所述對所述原始數據中的所述實體數據進行關系抽取處理獲取關系數據,包括:
對所述結構化告警信息中的所述實體數據進行關系抽取處理,獲取第一關系數據;
對所述非結構化告警信息中的所述實體數據進行關系抽取處理,獲取第二關系數據;
根據所述第一關系數據和所述第二關系數據,獲取所述關系數據。
可選地,在第一方面的一種可能實現方式中,所述對所述結構化告警信息中的所述實體數據進行關系抽取處理,獲取第一關系數據,包括:
獲取所述結構化告警信息中的有效表頭;
根據所述有效表頭對每一行所述結構化告警信息中的所述實體數據進行一致性查詢處理,獲取有效實體數據;
獲取所述結構化告警信息中每一行中任意兩兩所述有效實體數據之間的第一初始關系數據;
根據預設實體關系表對所述第一初始關系數據進行剔除處理,獲取所述第一關系數據,其中,所述預設實體關系表包括兩兩所述實體數據之間的共聯關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京中孚信息技術有限公司,未經南京中孚信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010533329.X/2.html,轉載請聲明來源鉆瓜專利網。





