[發明專利]一種基于不確定性本體的知識表示方法在審
| 申請號: | 202011321197.0 | 申請日: | 2020-11-23 |
| 公開(公告)號: | CN112463979A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 張嘉韜;漆桂林 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/30 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 薛雨妍 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 不確定性 本體 知識 表示 方法 | ||
本發明提供一種基于不確定性本體的知識表示方法,包括以下步驟:步驟(1)從帶有不確定性信息的本體知識圖譜中獲取實體、類型、關系及帶有不確定信息的三元組;步驟(2)對實例、類型、關系的表示向量初始化;步驟(3)基于不確定性本體的距離函數,構建不確定三元組的能量方程;步驟(4)根據所述距離函數,構建基于均方誤差的損失函數,通過最小化損失函數,學習實體及關系的表示。本發明的有益效果:能夠在學習知識表示的同時,保留不確定性信息。
技術領域
本發明涉及自然語言處理以及知識表示學習技術領域,更具體地,涉及一種基于不確定性本體的知識表示方法。
背景技術
知識圖譜是一種利用實體及關系來表示知識的方法,當前已經有許多大規模的知識圖譜,如DBpedia、Freebase等,這些知識圖譜在許多人工智能應用,如問答系統、語義搜索、關系抽取中都有著重要的應用。隨著知識圖譜成為研究熱點,不確定性也被很自然的引入到知識圖譜的研究當中:一方面,由于圖譜構造的各個環節,如關系抽取、實體鏈接等都充滿了噪聲與錯誤,導致難以保證最終知識圖譜的確定性;另一方面,許多知識本身就具有概率性和模糊性,尤其對于一些理論并不完備的領域,如生物醫學領域,許多經驗性的知識需要結合概率才能進行描述。當前的不確定性知識圖譜有NELL、Probase等,這些圖譜允許其三元組具有置信度信息,用于描述三元組的不確定性。通過將不確定性引入知識圖譜,一方面能夠更加精確的對知識進行描述,另一方面允許更多具有潛在價值的三元組進入圖譜,一定程度上提高了圖譜的覆蓋率,緩解了關系缺失的問題。
知識圖譜表示學習,是研究如何用低維實值向量來表示圖譜中的實體及關系,并用這種表示進行圖譜的補全或推理,當前比較具有代表性的工作有TransE、DistMult、RESCAL等,然而這些工作都沒有考慮到知識圖譜所具有的不確定性。相比基礎的知識圖譜表示學習,不確定性知識圖譜表示學習更具挑戰性,不確定性知識圖譜表示學習在保留了圖譜結構及語義信息的基礎上,還需要保留三元組的置信度信息,并實現更加精確的推理,其中比較具有代表性的方法有UKGE、CTransE等。由于可以實現不確定性信息的編碼,不確定表示學習已經被應用在了許多對推理精度要求更高、誤差更加敏感的任務中,如罕見疾病藥物挖掘等。
本體是知識圖譜的重要組成部分,其可以充分表達知識圖譜中概念及概念間的關系,有效地利用本體信息可以很大程度上提高基于知識圖譜推理的效果。當前,將本體與知識圖譜表示學習相結合的代表方法有JOIE等,然而這些工作中的本體都需要人工構建,費時費力。為了解決這個問題,一些方法希望利用規則挖掘技術自動化地從知識圖譜中挖掘本體,然而這些挖掘出來的本體往往質量比較低,帶有很大的不確定性。
綜上,基于該領域當前的研究情況,亟待提出一種能夠將不確定性本體圖譜與表示學習結合的方法,能夠在更加準確表示實例、類型、關系的基礎上,實現更加精準的知識圖譜補全及推理。
發明內容
為解決上述問題,本發明公開了為有效利用不確定性本體中的不確定性信息,提高推理的精度,其中本發明的解決方案是:
一種基于不確定性本體的知識表示方法,包括以下步驟:
步驟1:從帶有不確定性信息的本體知識圖譜中獲取實體、類型、關系及帶有不確定信息的三元組;
步驟2:對實例、類型、關系的表示向量初始化;
步驟3:基于不確定性本體的距離函數,構建不確定三元組的能量方程;
步驟4:根據所述距離函數,構建基于均方誤差的損失函數,通過最小化損失函數,學習實體及關系的向量表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011321197.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鏈路連通性檢測的方法及裝置
- 下一篇:一種圓光柵編碼器信號生成方法





