[發明專利]一種數據處理方法、裝置、計算機設備以及可讀存儲介質在審
| 申請號: | 202011163706.1 | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN112395425A | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 陳沛;吳旭輝;荊寧 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/295 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強;杜維 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 計算機 設備 以及 可讀 存儲 介質 | ||
本申請實施例公開了一種數據處理方法、裝置、計算機設備以及可讀存儲介質,該數據處理方法包括:獲取知識種子集合,知識種子集合包括文本的知識描述信息;將知識描述信息和語料集合中的文本數據進行匹配,得到知識抽取模板;根據知識抽取模板,從語料集合中抽取候選知識描述信息;確定知識抽取模板的模板置信度,根據模板置信度確定候選知識描述信息的知識置信度;根據知識置信度和候選知識描述信息更新知識種子集合;當更新后的知識種子集合滿足收斂條件時,根據更新后的知識種子集合更新知識圖譜。采用本申請,可以從互聯網海量的文本數據中高效的抽取更多的知識描述信息,為知識圖譜持續提供覆蓋面廣、準確率高的來源數據。
技術領域
本申請涉及計算機技術領域,尤其涉及一種數據處理方法、裝置、計算機 設備以及可讀存儲介質。
背景技術
知識圖譜(Knowledge Graph)是一種用圖數據結構表示的大型語義網絡, 由節點與邊共同描述了客觀世界的事物及其關系。目前,隨著智能信息服務應 用的不斷發展,知識圖譜已被廣泛應用于智能搜索、智能問答、個性化推薦、 情報分析、反欺詐等領域。
目前行業內主流知識圖譜的數據都來源于互聯網,基于規則抽取是方法是 目前從互聯網數據中獲取知識描述信息的主要方式。比如,通過匹配特定格式 文本進行SPO抽取、又例如通過制定前端DOM樹對應解析規則對非結構化數 據來源網頁進行抽取。但是互聯網文本數據具有異構多元、質量不一的特性, 能夠包含知識描述信息的文本表示情況過多,人為配置規則很難覆蓋到語料集 合中的所有文本表示情況,導致抽取到的知識描述信息不夠全面。
發明內容
本申請實施例提供一種數據處理方法、裝置、計算機設備以及可讀存儲介 質,可以高效的抽取到更為全面的知識描述信息。
本申請實施例一方面提供一種基于知識圖譜的數據處理方法,包括:
獲取知識種子集合,知識種子集合包括文本的知識描述信息;
將知識描述信息和語料集合中的文本數據進行匹配,得到知識抽取模板;
根據知識抽取模板,從語料集合中抽取候選知識描述信息;
確定知識抽取模板的模板置信度,根據模板置信度確定候選知識描述信息 的知識置信度;
根據知識置信度和候選知識描述信息更新知識種子集合;
當更新后的知識種子集合滿足收斂條件時,根據更新后的知識種子集合更 新知識圖譜。
本申請實施例一方面提供了一種基于知識圖譜的數據處理裝置,包括:
獲取模塊,用于獲取知識種子集合,知識種子集合包括文本的知識描述信 息;
模板生成模塊,用于將知識描述信息和語料集合中的文本數據進行匹配, 得到知識抽取模板;
知識抽取模塊,用于根據知識抽取模板,從語料集合中抽取候選知識描述 信息;
第一確定模塊,用于確定知識抽取模板的模板置信度;
第二確定模塊,用于根據模板置信度確定候選知識描述信息的知識置信度;
第一更新模塊,用于根據知識置信度和候選知識描述信息更新知識種子集 合;
第二更新模塊,用于根據更新后的知識種子集合更新知識圖譜。
其中,模板生成模塊,包括:
查詢單元,用于遍歷語料集合中的文本數據,將語料集合中包含知識描述 信息的段落,作為目標段落語料;
基礎生成單元,用于根據目標段落語料和知識描述信息生成基礎抽取模板;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011163706.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種市政公用工程施工用鉆孔裝置
- 下一篇:一種托盤式四向穿梭車及控制系統





