[發明專利]基于學習排序算法的知識庫補全方法及裝置有效
| 申請號: | 201810059641.2 | 申請日: | 2018-01-22 |
| 公開(公告)號: | CN108228877B | 公開(公告)日: | 2020-08-04 |
| 發明(設計)人: | 黃勇;王志春 | 申請(專利權)人: | 北京師范大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/383 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;李相雨 |
| 地址: | 100875 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 學習 排序 算法 知識庫 方法 裝置 | ||
本發明實施例公開一種基于學習排序算法的知識庫補全方法及裝置,能提高知識庫補全的正確率。方法包括:對于待補全的知識庫中的每一個待預測關系的頭尾實體對,基于目標關系類型構建該頭尾實體對對應比例的負實體對,對該頭尾實體對和所述負實體對抽取關系路徑,根據所述關系路徑確定所述頭尾實體對和所述負實體對的關系路徑特征向量;將所述關系路徑特征向量輸入預先訓練的學習排序模型,獲得該頭尾實體對和所述負實體對的得分排序,其中,所述學習排序模型采用學習排序算法進行訓練;若根據所述得分排序判斷獲知該頭尾實體對排序在第一位,則確定該頭尾實體對屬于該目標關系類型,通過將該頭尾實體對補入該目標關系類型下的三元組中,對該知識庫進行補全。
技術領域
本發明實施例涉及通信領域,具體涉及一種基于學習排序算法的知識庫補全方法及裝置。
背景技術
YAGO,DBpedia和Freebase等知識庫已經成功地應用于網絡搜索引擎,例如Google、Baidu使用維基百科知識庫和Freebase為檢索添加結構化的信息,并構建大規模的語義知識庫。一些問答機器人和個人手機助手也被廣泛應用,知識庫在其中起了重要的作用。
現有的知識庫多使用三元組的形式對現實世界中實體的各種知識進行表示,圖1給了一個典型的知識庫例子,對于圖1中三元組北京師范大學,位于,北京,其中“北京師范大學”和“北京”分別表示關系型三元組的頭實體和尾實體,“位于”表示關系路徑,知識庫中的實體是描述現實世界中實實在在存在的事物,而關系描述實體和實體之間存在的聯系。然而在現實中存在很多大規模的知識庫如DBpedia、Freebase、YAGO、wikidata等,這些知識庫通過自動構建技術或者人工手動標注建立,盡管包含上億條三元組知識,規模龐大,然而這些知識庫是不完備的,比如很多人的出生地點未知、很多電影的演員信息也不完全。
為了解決知識庫不完備的問題,很多知識庫補全的方法被提出來。當前知識庫補全方法有兩種,基于邏輯符號的方法和基于低維嵌入的方法。常見的邏輯符號方法有AMIE、PRA、SFE等,AMIE方法是通過規則學習挖掘知識庫規則的方法,PRA方法基于關系路徑權重來預測兩個實體之間關系,SFE通過學習在知識庫中的隱含路徑知識,獲得比PRA方法更多的關系路徑特征,進一步提高預測準確率。低維嵌入的方法則學習實體和關系的低維度向量表示,用向量相似度計算預測實體之間的關系,常見的低維嵌入方法如TranE、TranH、TranR等。
這些知識庫補全方法基于打分模型通過對知識庫中未知的實體關系進行預測打分,判斷實體對之間是否有特定的關系。例如希望預測北京師范大學是否位于中國這個事實,需要抽取北京師范大學和中國這兩個實體相關的關系路徑類型特征,并基于這些關系路徑類型特征計算頭尾實體對的關系路徑特征向量,從而來預測北京師范大學和中國是否有“位于”這種關系。如對于實體對北京師范大學和北京,我們可以通過關系路徑北京師范大學,位于,北京,位于,中國和北京師范大學,有校長,董奇,居住在,中國可以抽取關系路徑類型{位于-位于,……,有校長-居住在}組成關系路徑類型集合,并通過抽取“位于”關系下的不同實體對不同的關系路徑類型,從而計算獲得每個實體對的關系路徑特征向量。
但是當前的知識庫基于打分模型進行知識庫補全有很大不足。一是知識庫中正負實體對比例差別很大,對于每個在知識庫中實際存在的三元組正實例,可能有成千上萬條不存在的三元組負實例相對應,如三元組北京師范大學,位于,中國這個三元組在知識庫中實際存在,是一條正實例,而北京師范大學,位于,美國和北京師范大學,位于,日本等上百條負實例與之對應,如何解決正負實體對不匹配的問題很關鍵,正負實體對比例懸殊,關系預測中僅靠打分是不夠的。二是相關的方法都是通過評價三元組得分高低來預測結果的,而并未考慮候選實體對的順序對預測結果的影響。
發明內容
針對現有技術存在的不足和缺陷,本發明實施例提供一種基于學習排序算法的知識庫補全方法及裝置。
一方面,本發明實施例提出一種基于學習排序算法的知識庫補全方法,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京師范大學,未經北京師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810059641.2/2.html,轉載請聲明來源鉆瓜專利網。





