[發明專利]知識圖譜中的實體對齊方法及裝置在審
| 申請號: | 201911001804.2 | 申請日: | 2019-10-21 |
| 公開(公告)號: | CN110765276A | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 姜旭;李嘉琛 | 申請(專利權)人: | 北京明略軟件系統有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/30;G06F40/247 |
| 代理公司: | 11240 北京康信知識產權代理有限責任公司 | 代理人: | 江舟 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 可用信息 對齊 協同 數據實體 知識表示 相似度 訓練集 標注 圖譜 學習 | ||
本發明提供了一種知識圖譜中的實體對齊方法及裝置,其中,該方法包括:從多個平臺中獲取多個實體作為實體訓練集;根據與所述實體訓練集中各個實體相關的可用信息生成用于進行協同訓練的特征,其中,所述特征用于指示多個實體中同一類可用信息之間的相似度;根據所述特征對基于協同訓練的模型進行訓練,并根據訓練得到的模型判別待處理的實體對是否同義。通過本發明,解決了相關技術中基于知識表示學習的方法依賴大量標注數據實體對齊不佳的問題。
技術領域
本發明涉及計算機領域,具體而言,涉及一種知識圖譜中的實體對齊方法及裝置。
背景技術
在構建大規模知識庫的任務中,需要處理大量來自多源知識庫的實體數據。在構建知識庫之初,首先需建立一個知識描述體系,然后向體系中掛載實體數據.由于不同知識庫的信息來源不同,以及人工定義及校對的差異,語義上相同的實體在不同的知識庫中會有不同的表現形式。具有相同條目名稱的實體也許表示著語義上的同一事物,也許表示著兩種事物。
在現有的實際運作過程中,主要通過兩種方法進行實體融合:
1)傳統實體對齊
傳統的實體對齊方法主要通過屬性相似度匹配的方式實現,利用有監督學習的機器學習模型,如:決策樹、支持向量機、集成學習等。依賴實體的屬性信息,通過屬性相似度,進行跨平臺實體對齊關系的推斷。由于屬性的類別不同,需要設計不同的屬性相似度計算函數,且不同的領域需要設計不同的屬性相似度函數。但是該對齊方式,存在以下缺點:a)耗費人力;b)難以在多領域間遷移;c)由于屬性的表達是離散的,這種計算方式忽略了屬性的語義相似度,限制了實體對齊的效果。
2)基于知識表示學習
通過將知識圖譜中的實體和關系都映射低維空間向量,直接用數學表達式來計算各個實體之間相似度,例如TransE方法等。
知識表示學習是使用建模的方法,將知識圖譜中的實體和關系表示成為低維的向量,然后對其進行計算和推理。TransE是最早的知識表示學習模型。它將每個三元組關系(h,r,t)表示成從頭實體h到尾實體r的向量。TransE希望三元組尾實體t應該盡量接近于頭實體h與關系r的和,即h+r=t.TransE定義損失函數:‖h+r-t‖L1/L2,并在模型中使用隨機梯度下降的方法對參數進行更新。傳統訓練知識庫中三元組建模的方法參數過多,導致模型太復雜難以解釋,并且需要很大的計算代價,很容易出現過擬合或欠擬合問題。而TransE作為一種將實體與關系嵌入到低維向量空間中的簡單模型,彌補了傳統方法訓練復雜、參數過多的缺點。雖然TransE模型在大規模數據集上取得了很好的效果,但其只能針對一對一關系進行計算,而無法對一對多、多對一、多對多的復雜關系進行計算。因此,出現了很多對TransE進行改進的模型,如TransH、TransR、TransSparce、TransA、HTransA、PTransE等。與TransE模型相比,這些新的Trans系列模型能夠計算知識庫中更加復雜的實體關系建模,如一對多、多對一、多對多的關系。如TransH、TransR和TransSparce模型都是將頭實體h和尾實體t投射到另一個超平面上;TransA和HTransA則使用局部特征自適應的方式得到最優損失函數,無須事先指定參數的封閉候選值集合;PTransE是一種基于路徑分布表示的方法,將實體、關系以及路徑都在低維的向量空間中表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略軟件系統有限公司,未經北京明略軟件系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911001804.2/2.html,轉載請聲明來源鉆瓜專利網。





