[發明專利]一種利用路徑排序快速進行知識圖譜補全的方法在審
| 申請號: | 202111554206.5 | 申請日: | 2021-12-17 |
| 公開(公告)號: | CN114398349A | 公開(公告)日: | 2022-04-26 |
| 發明(設計)人: | 莊連生;龍嘯;李厚強 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/28;G06F16/22 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 金怡 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 路徑 排序 快速 進行 知識 圖譜 方法 | ||
本發明公開一種利用路徑排序快速補全知識圖譜的方法,包括數據構建階段、離線階段和在線階段。離線階段將會為知識庫中的三元組生成元路徑特征,利用訓練模塊對訓練知識庫中三元組及其元路徑特征進行訓練,訓練好相應的分類器;在線階段則會利用生成好的路徑特征完成連接預測的任務。相較于基于嵌入的模型只利用三元組直接連接的信息,本發明利用關系路徑中潛在的多跳語義信息和可觀察的模式,進行實體預測任務,充分挖掘了圖譜中的連接信息,以提高預測的準確率。此外,本發明分為線上和線下兩階段,可以提前生成三元組的元路徑特征并存儲,充分提高了線上預測階段的效率。
技術領域
本發明涉及人工智能領域,尤其涉及一種利用路徑排序快速進行知識圖譜補全的方法。
背景技術
知識圖譜是一種結構化的知識表示方法,通過描述不同實體間的關系來描述外部世界的知識。知識圖譜通過利用三元組(頭節點,關系,尾節點)來描述知識,并以有向圖的形式對其進行表示和存儲,具有語義豐富、結構友好、易于理解等優點。由于在表達人類先驗知識上具有優良的特點,知識圖譜近年來在自然語言處理、信息檢索、推薦系統等領域取得了廣泛且成功的應用。如百度知識圖譜,百度知識圖譜是一個宏大的數據模型,可以構建龐大的“知識”網絡,包含世間萬物構成的“實體”以及它們之間的“關系”,圖文并茂地展現知識方方面面的“屬性”,讓人們更便捷地獲取信息、找到所求。知識圖譜將人與知識智能地連接了起來。通過這項技術的大規模應用,將人與“知識”連接起來,智能獲取知識。通常,傳統的知識庫如FreeBase、DBpedia和NELL都包含了幾百萬、上千萬條的知識三元組。但是,由于現實世界的復雜性,這些知識庫并不完整,無法描述現實世界所有物體之間的關系,無法覆蓋所有可能的知識。例如,FreeBase中75%的人物實體缺少國籍信息,DBpedia中60%的任務實體缺少出生地信息。知識圖譜鏈接確實的問題,限制了知識圖譜在相關下游任務中的使用。因此,如何將不完整的知識圖譜進行補全成為了亟待解決的問題。
知識圖譜補全任務旨在根據知識圖譜中已有事實推斷出新的事情,從而使得知識圖譜更加完整。現有的圖譜補全技術主要利用圖譜嵌入技術,通過將知識圖譜中實體和關系嵌入到連續向量空間,從而在方便計算的同時保留知識圖譜中的結構信息。這些嵌入向量包含了豐富的語義信息,不僅可以幫助圖譜的補全還可以受益廣泛的下游應用。但是,現有基于圖譜嵌入的補全方法僅僅利用了知識圖譜中直接連接的路徑信息,忽略了多跳路徑信息,這在一定程度上限制了圖譜補全算法的性能。本發明提出一種利用圖譜中多跳路徑來幫助進行知識圖譜補全的方法。
發明內容
基于現有技術所存在的問題,本發明的目的是提供一種利用路徑排序快速進行知識圖譜補全的方法,解決知識圖譜的缺失問題。
本發明的目的是通過以下技術方案實現的:一種利用路徑排序快速進行知識圖譜補全的方法,包括如下步驟:
步驟1、數據構建階段,對知識圖譜進行數據清洗和預處理;
步驟2、離線階段,為知識庫中的三元組生成元路徑特征;利用訓練模塊對訓練知識庫中三元組及其元路徑特征進行訓練,訓練好相應的分類器;
步驟3、在線階段,利用生成好的元路徑特征完成鏈接預測的任務。
進一步的,所述步驟1、數據構建階段,對知識圖譜進行數據清洗和預處理,具體如下:
對于一個簡單的知識圖譜構建流程如下:知識獲取及存儲,或者說是數據支持層,首先從不同來源、不同結構的數據中獲取知識,知識來源主要是通過爬取各種百科知識這類半結構化數據。爬取好這些數據后,本發明根據這些知識已有的邏輯關系,對其進行三元組的構建,并連成圖數據的結構。然后對圖譜中的三元組進行統計,統計圖譜中實體和關系的數量并編號。如下形式:實體1:EID1,實體2:EID2,…,實體n:EIDn。關系1:RID1,關系2:RID2,…,關系n:RIDn。該步驟的目的是方便在后續算法中對實體和關系進行索引,將圖譜中的三元組進行量化,形成如(EIDi,RIDj,EIDk)的范式。將這些信息統計好之后,就完成了補全圖譜的數據預處理過程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111554206.5/2.html,轉載請聲明來源鉆瓜專利網。





