[發明專利]基于事件消歧的事件唯一ID構建方法有效
| 申請號: | 202010860468.3 | 申請日: | 2020-08-25 |
| 公開(公告)號: | CN111737407B | 公開(公告)日: | 2020-11-10 |
| 發明(設計)人: | 車雨蒙;周凡吟;吳桐;曾途 | 申請(專利權)人: | 成都數聯銘品科技有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F21/60;G06F40/205 |
| 代理公司: | 北京市領專知識產權代理有限公司 11590 | 代理人: | 張玲 |
| 地址: | 610015 四川省成都市自由貿易試*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 事件 唯一 id 構建 方法 | ||
本發明涉及基于事件消歧的事件唯一ID構建方法,包括以下步驟:采集若干文本數據,并對采集的若干文本數據進行初步消歧;對初步消歧后的若干文本數據分別進行文本正文解析,輸出各自的文本基礎數據;對輸出的每個文本基礎數據分別進行深度消歧,輸出事件唯一的文本緩存數據,所述文本緩存數據中包括唯一的索引ID、與索引ID對應的事件ID。本發明通過對文本數據消歧構成事件唯一ID的體系,可以解決在企業數據倉庫的構建過程中,數據獲取、數據融合和數據分析等步驟中對數據質量、數據標準和數據溯源等問題的把控。
技術領域
本發明涉及數據處理與融合技術領域,特別涉及基于事件消歧的事件唯一ID構建方法。
背景技術
隨著大數據時代的不斷深入,數據作為生產要素的價值越發突顯出來,數據獲取、數據融合和數據分析能力逐漸成為企業數據自轉型的關鍵問題。在企業做數據倉庫的構建過程中,尤其是對于海量文本數據的獲取和分析時,數據擁有一個標準統一的ID體系能夠對數據處理和數據融合帶來極大的便利。
發明內容
本發明的目的在于對事件進行消歧后構建事件唯一的ID,提供一種基于事件消歧的事件唯一ID構建方法。
為了實現上述發明目的,本發明實施例提供了以下技術方案:
基于事件消歧的事件唯一ID構建方法,包括以下步驟:
采集若干文本數據,并對采集的若干文本數據進行初步消歧;
對初步消歧后的若干文本數據分別進行文本正文解析,輸出各自的文本基礎數據;
對輸出的每個文本基礎數據分別進行深度消歧,輸出事件唯一的文本緩存數據,所述文本緩存數據中包括唯一的索引ID、與索引ID對應的事件ID。
所述采集若干文本數據,并對采集的若干文本數據進行初步消歧的步驟,包括:
提取每個文本數據中的文本標題、文本來源網站名稱、文本發布日期,若存在文本標題、文本來源網站名稱、文本發布日期均相同的文本數據,則去除相同的文本數據,僅保留一個文本數據;
使用MD5加密算法對保留的文本數據的文本標題、文本來源網站名稱、文本發布日期加密生成相關信息唯一ID。
所述對初步消歧后的若干文本數據分別進行文本正文解析,輸出文本基礎數據的步驟,包括:
使用NLP自然語言處理方法分別對各個文本數據的正文進行解析,提取正文中事件類型、事件主體、開始時間、結束時間、事件客體;
通過實體鏈接的方式對提取出來的事件主體、事件客體的標準名稱進行鏈接,使得事件主體和事件客體具有標準名稱,并對事件主體匹配主體ID,對事件客體匹配客體ID;
根據已提取的事件類型、事件主體、開始時間、結束時間、事件客體,建立索引ID,完成文本基礎數據輸出。
所述根據已提取的事件類型、事件主體、開始時間、結束時間、事件客體,建立索引ID的步驟,包括:
若已提取出來的事件類型、事件主體、開始時間、結束時間或事件客體的數量僅有一個,則建立事件類型-事件主體-開始時間-結束時間-事件客體所對應的索引ID;
若已提取出來的事件類型、事件主體、開始時間、結束時間或事件客體的數量不止一個,則分別建立事件類型-事件主體-開始時間-結束時間-事件客體所對應的索引ID,并在各索引ID后輸入區分后綴。
所述對輸出的每個文本基礎數據分別進行深度消歧,輸出文本緩存數據,所述文本緩存數據中包括事件ID、索引ID的步驟,包括:
若文本基礎數據中僅包含一個索引ID,則對該索引ID使用MD5加密算法生成事件ID,輸出文本緩存數據,該文本緩存數據中包括一組事件ID-索引ID;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都數聯銘品科技有限公司,未經成都數聯銘品科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010860468.3/2.html,轉載請聲明來源鉆瓜專利網。





