[發明專利]知識圖譜的應用數據庫生成方法及其裝置有效
| 申請號: | 201811501402.4 | 申請日: | 2018-12-10 |
| 公開(公告)號: | CN109766444B | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 郝學峰;許超;李千 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 知識 圖譜 應用 數據庫 生成 方法 及其 裝置 | ||
1.一種知識圖譜的應用數據庫生成方法,其特征在于,包括:
獲取待生成應用數據庫的主題;
獲取通用知識圖譜的實體;
根據所述待生成應用數據庫的主題,從所述通用知識圖譜的實體中篩選出與所述主題相關的實體作為核心實體;其中,從所述通用知識圖譜中查找所述主題對應的實體,作為主題實體;根據所述通用知識圖譜中每個實體與所述主題實體的邊,確定所述通用知識圖譜中所述每個實體與所述主題的相關度,并將所述相關度大于等于第一預設閾值的所述通用知識圖譜中的實體作為相關實體;對所述相關實體進行篩選,以得到所述核心實體;
生成所述待生成應用數據庫的個性化實體;以及
根據所述個性化實體和所述核心實體,生成所述應用數據庫;
其中,所述對所述相關實體進行篩選,以得到所述核心實體,包括:
獲取所述相關實體的實體類型、實體屬性、實體熱度;
根據所述實體類型、所述實體屬性、所述實體熱度中的一種或者多種對所述相關實體進行篩選;
將篩選后的所述相關實體作為所述核心實體。
2.如權利要求1所述的方法,其特征在于,在所述根據所述待生成應用數據庫的主題,從所述通用知識圖譜的實體中篩選出與所述主題相關的實體作為核心實體之后,還包括:
根據所述待生成應用數據庫的主題,修改所述核心實體的屬性表達,其中,所述屬性表達為所述核心實體在不同應用數據庫中的名稱。
3.如權利要求2所述的方法,其特征在于,所述生成所述待生成應用數據庫的個性化實體,包括:
獲取所述待生成應用數據庫的原始數據;
對所述原始數據進行有效性檢驗,以獲取有效原始數據;
對所述有效原始數據進行實體化,以生成所述個性化實體。
4.如權利要求3所述的方法,其特征在于,所述對所述有效原始數據進行實體化,以生成所述個性化實體,包括:
對所述有效原始數據進行實體操作以生成有效實體數據,其中,所述實體操作包括實體拆分、實體組裝和實體拼接中的一項或多項;以及
對所述有效實體數據進行過濾,以生成所述個性化實體。
5.如權利要求4所述的方法,其特征在于,所述根據所述個性化實體和所述核心實體,生成所述應用數據庫,包括:
對所述個性化實體和所述修改屬性表達后的核心實體進行消岐,以獲取消岐后的應用實體;
根據所述應用實體,生成所述應用數據庫。
6.如權利要求5所述的方法,其特征在于,所述對所述個性化實體和所述修改屬性表達后的核心實體進行消岐,以獲取消岐后的應用實體,包括:
計算所述個性化實體和所述修改屬性表達后的核心實體的詞義相似度;
判斷所述詞義相似度是否大于等于第二預設閾值;
若所述詞義相似度大于等于第二預設閾值,則將所述個性化實體修改為所述修改屬性表達后的核心實體,以獲取所述消岐后的應用實體;
若所述詞義相似度小于第二預設閾值,則分別保留所述個性化實體和所述修改屬性表達后的核心實體,以獲取所述消岐后的應用實體。
7.如權利要求6所述的方法,在所述根據所述應用實體,生成所述應用數據庫之后,還包括:
對所述應用數據庫中的應用實體進行價值評價,以獲取所述應用實體的價值評價數值;
將所述價值評價數值高于第三預設閾值的應用實體加入所述通用知識圖譜,以更新所述通用知識圖譜中的實體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811501402.4/1.html,轉載請聲明來源鉆瓜專利網。





