[發明專利]一種基于海量文本數據的人事關系知識圖譜構建方法在審
| 申請號: | 201910539129.2 | 申請日: | 2019-06-20 |
| 公開(公告)號: | CN110245244A | 公開(公告)日: | 2019-09-17 |
| 發明(設計)人: | 吳漾;王鵬宇;郭仁超;方繼宇;孔慶波;柳林溪 | 申請(專利權)人: | 貴州電網有限責任公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/901;G06Q10/10 |
| 代理公司: | 貴陽中新專利商標事務所 52100 | 代理人: | 胡緒東 |
| 地址: | 550002 貴*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖譜 海量文本數據 計算實體 時間實體 事件實體 圖譜構建 構建 數據庫構建 關系數據 海量數據 距離判斷 實體關系 文本內容 挖掘 解析 數據庫 發現 | ||
1.一種基于海量文本數據的人事關系知識圖譜構建方法,其特征在于:該方法包括以下步驟:
(1)解析海量word數據,提取所需文本內容;
遍歷所有文件,找到word文件,將word文件全部轉化為html文件,解決加密word文檔的麻煩,通過爬蟲方式,提取所有的文本數據;
(2)挖掘事件、人、部門及時間實體;
通過結巴分詞,添加自定義詞庫,標注人名為:per,部門名為:dep,通過正則表達式得到時間,加入專有名詞庫,分詞后專有名詞前或后2個詞,如果有動詞v,則構成一個事件實體;
(3)計算實體距離,判斷實體關系;
在一句話中,正則表達式匹配出一個時間實體,時間實體第一個字在這句話中的位置,這句話中如果出現多個事件實體,所有的事件實體的時間就這個時間實體,出現人名實體或部門實體,計算人名實體第一個字的位置與事件實體出現的第一個之間的距離,距離最小的就是事件實體的所屬實體;
(4)數據插入Neo4j構建知識圖譜;
得到一個關系數據,關系數據包括事件實體、時間實體、人名實體或部門名實體,將關系數據插入Neo4j數據庫中,構建知識圖譜。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州電網有限責任公司,未經貴州電網有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910539129.2/1.html,轉載請聲明來源鉆瓜專利網。





