[發(fā)明專利]一種基于海量文本數(shù)據(jù)的人事關(guān)系知識圖譜構(gòu)建方法在審
| 申請?zhí)枺?/td> | 201910539129.2 | 申請日: | 2019-06-20 |
| 公開(公告)號: | CN110245244A | 公開(公告)日: | 2019-09-17 |
| 發(fā)明(設計)人: | 吳漾;王鵬宇;郭仁超;方繼宇;孔慶波;柳林溪 | 申請(專利權(quán))人: | 貴州電網(wǎng)有限責任公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/901;G06Q10/10 |
| 代理公司: | 貴陽中新專利商標事務所 52100 | 代理人: | 胡緒東 |
| 地址: | 550002 貴*** | 國省代碼: | 貴州;52 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 圖譜 海量文本數(shù)據(jù) 計算實體 時間實體 事件實體 圖譜構(gòu)建 構(gòu)建 數(shù)據(jù)庫構(gòu)建 關(guān)系數(shù)據(jù) 海量數(shù)據(jù) 距離判斷 實體關(guān)系 文本內(nèi)容 挖掘 解析 數(shù)據(jù)庫 發(fā)現(xiàn) | ||
1.一種基于海量文本數(shù)據(jù)的人事關(guān)系知識圖譜構(gòu)建方法,其特征在于:該方法包括以下步驟:
(1)解析海量word數(shù)據(jù),提取所需文本內(nèi)容;
遍歷所有文件,找到word文件,將word文件全部轉(zhuǎn)化為html文件,解決加密word文檔的麻煩,通過爬蟲方式,提取所有的文本數(shù)據(jù);
(2)挖掘事件、人、部門及時間實體;
通過結(jié)巴分詞,添加自定義詞庫,標注人名為:per,部門名為:dep,通過正則表達式得到時間,加入專有名詞庫,分詞后專有名詞前或后2個詞,如果有動詞v,則構(gòu)成一個事件實體;
(3)計算實體距離,判斷實體關(guān)系;
在一句話中,正則表達式匹配出一個時間實體,時間實體第一個字在這句話中的位置,這句話中如果出現(xiàn)多個事件實體,所有的事件實體的時間就這個時間實體,出現(xiàn)人名實體或部門實體,計算人名實體第一個字的位置與事件實體出現(xiàn)的第一個之間的距離,距離最小的就是事件實體的所屬實體;
(4)數(shù)據(jù)插入Neo4j構(gòu)建知識圖譜;
得到一個關(guān)系數(shù)據(jù),關(guān)系數(shù)據(jù)包括事件實體、時間實體、人名實體或部門名實體,將關(guān)系數(shù)據(jù)插入Neo4j數(shù)據(jù)庫中,構(gòu)建知識圖譜。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于貴州電網(wǎng)有限責任公司,未經(jīng)貴州電網(wǎng)有限責任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910539129.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種文本檢索的方法和裝置
- 一種海量文本數(shù)據(jù)關(guān)鍵詞的快速查找方法
- 一種海量文本數(shù)據(jù)處理方法及裝置
- 一種海量文件的數(shù)據(jù)收集處理方法及系統(tǒng)
- 一種文本數(shù)據(jù)的聚類方法、裝置和系統(tǒng)
- 一種事件預測方法、裝置及系統(tǒng)
- 一種基于互聯(lián)網(wǎng)的信息定向抓取方法及系統(tǒng)
- 一種文本數(shù)據(jù)轉(zhuǎn)換腳本的執(zhí)行優(yōu)化方法
- 一種實時文本數(shù)據(jù)流的特定信息識別方法及系統(tǒng)
- 基于MapReduce框架下的海量文本快速聚類的方法
- 參與實體的資源節(jié)約型基于網(wǎng)絡的通信
- 確定實體的行進時間
- 基于長持續(xù)時間數(shù)字證書驗證的短持續(xù)時間數(shù)字證書頒發(fā)
- 視頻流的基于實體的時間分割
- 攜帶時間戳的中文通用知識圖譜的生成方法及裝置
- 一種數(shù)據(jù)處理方法、裝置和用于數(shù)據(jù)處理的裝置
- 時間數(shù)據(jù)的歸一化方法、裝置、介質(zhì)及電子設備
- 基于長持續(xù)時間數(shù)字證書驗證的短持續(xù)時間數(shù)字證書頒發(fā)
- 對文本中的時間信息進行提取的方法、裝置及電子設備
- 一種基于時空知識圖譜的風險溯源方法、系統(tǒng)及裝置





