[發明專利]一種基于海量文本數據的人事關系知識圖譜構建方法在審
| 申請號: | 201910539129.2 | 申請日: | 2019-06-20 |
| 公開(公告)號: | CN110245244A | 公開(公告)日: | 2019-09-17 |
| 發明(設計)人: | 吳漾;王鵬宇;郭仁超;方繼宇;孔慶波;柳林溪 | 申請(專利權)人: | 貴州電網有限責任公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/901;G06Q10/10 |
| 代理公司: | 貴陽中新專利商標事務所 52100 | 代理人: | 胡緒東 |
| 地址: | 550002 貴*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖譜 海量文本數據 計算實體 時間實體 事件實體 圖譜構建 構建 數據庫構建 關系數據 海量數據 距離判斷 實體關系 文本內容 挖掘 解析 數據庫 發現 | ||
本發明公開了一種基于海量文本數據的人事關系知識圖譜構建方法,該方法包括步驟:解析海量word數據,提取所需文本內容;挖掘事件、人、部門及時間實體;計算實體距離,判斷實體關系;數據插入Neo4j構建知識圖譜。本發明通過挖掘海量數據,得到人名實體、部門實體、事件實體和時間實體,通過計算實體之間的距離判斷事件實體的所屬是人還是部門,及時間,最后將發現的關系數據插入Neo4j數據庫,構建知識圖譜,通過數據庫構建的知識圖譜,可以發現人與事的關系,人與人的關系。
技術領域
本發明屬于人事關系提取技術領域,涉及一種基于海量文本數據的人事關系知識圖譜構建方法。
背景技術
現有技術有實體發現算法,但是并沒有事件實體的發現,沒有事件,關聯部門或人,還有時間的組合。
發明內容
本發明要解決的技術問題是:提供一種基于海量文本數據的人事關系知識圖譜構建方法,以解決現有技術中存在的問題。
本發明采取的技術方案為:一種基于海量文本數據的人事關系知識圖譜構建方法,該方法包括以下步驟:
(1)解析海量word數據,提取所需文本內容;
遍歷所有文件,找到word文件,將word文件全部轉化為html文件,解決加密word文檔的麻煩,通過爬蟲方式,提取所有的文本數據;
(2)挖掘事件、人、部門及時間實體;
通過結巴分詞,添加自定義詞庫,標注人名為:per,部門名為:dep,通過正則表達式得到時間,加入專有名詞庫,例如:(信息管理系統:sys),分詞后專有名詞前或后2個詞,如果有動詞v,則構成一個事件實體,例如:信息管理系統的推廣;
(3)計算實體距離,判斷實體關系;
在一句話中,正則表達式匹配出一個時間實體,時間實體第一個字在這句話中的位置,這句話中如果出現多個事件實體,所有的事件實體的時間就這個時間實體,出現人名實體或部門實體,計算人名實體第一個字的位置與事件實體出現的第一個之間的距離,距離最小的就是事件實體的所屬實體;
(4)數據插入Neo4j構建知識圖譜;
得到一個關系數據,關系數據包括事件實體、時間實體、人名實體或部門名實體,將關系數據插入Neo4j數據庫中,構建知識圖譜。
本發明的有益效果:與現有技術相比,本發明通過挖掘海量數據,得到人名實體、部門實體、事件實體和時間實體,通過計算實體之間的距離判斷事件實體的所屬是人還是部門,及時間,最后將發現的關系數據插入Neo4j數據庫,構建知識圖譜,通過數據庫構建的知識圖譜,可以發現人與事的關系,人與人的關系。
附圖說明
圖1為提取文本內容流程示意圖;
圖2為挖掘事件、人、部門及時間實體流程示意圖;
圖3為判斷實體關系流程示意圖;
圖4為構建知識圖譜流程示意圖;
圖5為實例圖;
具體實施方式
下面結合附圖及具體的實施例對本發明進行進一步介紹。
實施例1:如圖1-5所示,一種基于海量文本數據的人事關系知識圖譜構建方法,該方法包括以下步驟:
(1)解析海量word數據,提取所需文本內容;
遍歷所有文件,找到word文件,將word文件全部轉化為html文件,解決加密word文檔的麻煩,通過爬蟲方式,提取所有的文本數據,通過將穩步轉化為,如圖1所示;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州電網有限責任公司,未經貴州電網有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910539129.2/2.html,轉載請聲明來源鉆瓜專利網。





