[發明專利]一種基于知識庫的實體更新方法及系統有效
| 申請號: | 201710883591.5 | 申請日: | 2017-09-26 |
| 公開(公告)號: | CN107908637B | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 鄭宇宏;陳文浩;鄭燁翰 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/23 | 分類號: | G06F16/23;G06F16/29;G06N5/02 |
| 代理公司: | 北京鴻德海業知識產權代理有限公司 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識庫 實體 更新 方法 系統 | ||
本申請提供一種基于知識庫的實體更新方法及系統,所述方法包括:基于知識庫,確定產品業務關聯實體;根據產品業務需求,為所述產品業務關聯實體生成新增屬性,調用知識庫算子更新所述產品業務關聯實體;將更新后的產品業務關聯實體發送給產品業務應用方。能夠避免現有技術中基于批處理調度抓取實體屬性數據,無法滿足各種產品業務需求的問題。能夠針對不同產品業務需求,使用統一的技術方案,生成實體新增屬性,校驗并更新實體數據,并且能夠在滿足產品業務需求的同時更新知識庫。
【技術領域】
本申請涉及互聯網數據處理技術領域,尤其涉及一種基于知識庫的實體更新方法及系統。
【背景技術】
隨著互聯網數據的快速增長,互聯網逐漸從原有的僅包含網頁相互引用的超鏈接的文檔萬維網轉變為包含大量描述各種實體和實體之間豐富關系的數據萬維網,整個互聯網變得更加立體可見。在上述背景下,互聯網公司紛紛以此為基礎,通過構建知識庫來改進服務質量。
知識庫,又稱知識圖譜,旨在描述真實世界中存在的各種實體以及實體間的屬性或關系,從數據處理的角度看,現實世界中的客觀事物稱為實體,它是現實世界中任何可區分、可識別的事物。實體可以為人、物、事件、概念等。知識圖譜可被看作是一張巨大的圖,圖中的節點表示實體,而圖中的邊則由屬性或關系構成。知識庫是由實體名稱及其屬性數據的結構化數據項構建。具體的,知識庫可以向外提供知識算子,所述知識算子可視作數據接口,從而通過該數據接口可以從互聯網收集數據。
現有的知識獲取方法屬于離線批處理調度抓取方法,是一般是從開放網頁、在線百科等數據中抽取概念、實體、屬性和關系。通常會基于批處理調度抓取實體屬性數據,例如以多線程爬蟲形式對網站抓取全量的實體數據,然后以單個實體為粒度,使用統一的數據規范(schema)進行清洗、融合、建立實體之間的聯系,構建以實體為核心的知識庫。隨著產品業務的增加,現有知識獲取方法難以滿足快速增長的各種產品業務需求,存在以下問題:
(1)、脫離知識庫與知識庫算子,無法利用知識庫中豐富的實體屬性以及關系網絡,增加了實體數據的獲取難度;
(2)、缺少知識庫數據難以校驗抓取返回實體屬性數據的有效性;
(3)、抓取返回的實體屬性數據沒有統一建庫落地,通用性、復用性差。
【發明內容】
本申請的多個方面提供一種基于知識庫的實體更新方法及系統,用于滿足不同產品業務需求,降低實體數據的獲取難度。
本申請的一方面,提供一種基于知識庫的實體更新方法,包括:
基于知識庫,確定產品業務關聯實體;
根據產品業務需求,為所述產品業務關聯實體生成新增屬性;調用知識庫算子更新所述產品業務關聯實體;
將更新后的產品業務關聯實體發送給產品業務應用方。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述得到產品業務關聯實體包括:
根據產品的業務字段在知識庫中進行查找,篩選出產品業務關聯實體;或者,
在知識庫中根據產品的業務字段新建實體,作為產品業務關聯實體。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據產品業務需求,為所述產品業務關聯實體生成新增屬性包括:
判斷所述產品業務關聯實體的屬性能否滿足產品業務需求;如果不滿足,則根據產品業務需求,為所述產品業務關聯實體生成新增屬性。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據產品業務需求,為所述產品業務關聯實體生成新增屬性包括:
根據產品業務需求,為所述產品業務關聯實體生成一個或多個新增屬性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710883591.5/2.html,轉載請聲明來源鉆瓜專利網。





