[發明專利]一種基于多模態融合的知識庫構建方法在審
| 申請號: | 202010099748.7 | 申請日: | 2020-02-18 |
| 公開(公告)號: | CN111339313A | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 張日崇;譚智隆;劉幼峰 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/30 |
| 代理公司: | 北京中創陽光知識產權代理有限責任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多模態 融合 知識庫 構建 方法 | ||
1.一種基于多模態融合的知識庫構建方法,其特征在于,所述方法包括:
步驟一:基于數據源中詞條的信息框信息抽取實體的基本屬性建立二元關系,生成所述信息框屬性與關系的映射字典;利用所述詞條的文本描述信息建立基于詞向量空間和條件隨機場的主題實體與關系提取模型,擴充所述二元關系生成多元關系模板;基于抽取到的所述二元關系的名稱構建實體的特征集合,對所述實體進行層次聚類劃分,構建分類體系,概括所述分類體系信息;
步驟二:對若干數據源中每個數據源中的數據以所述實體的固有屬性和屬性值進行屬性規范化;確定融合的數據集合,根據實體對齊算法識別不同數據源中的等價實體,建立不同數據源中同一實體的等價鏈接,進行多源數據融合;
步驟三:對進行所述多源數據融合后的知識圖譜進行糾正和擴充,對語義向量空間進行聯合學習以及鏈接預測,設計事實重建方法,實現知識的自動補全。
2.根據權利要求1所述的基于多模態融合的知識庫構建方法,其特征在于,所述步驟二中所述實體對齊算法用于計算所述實體間的相似度,當相似度超過設定的閾值時,所述實體為等價實體,其中,所述相似度為兩個所述實體間本文描述的相似度。
3.根據權利要求2所述的基于多模態融合的知識庫構建方法,其特征在于,所述相似度通過以下方法得到:獲得兩個實體間的文本描述,分詞,去除停用詞,通過BERT訓練的詞向量將文本轉化為向量,將每個詞得到的向量累加后除以詞的數量,將得到的兩個句向量用余弦值求得相似度。
4.根據權利要求1所述的基于多模態融合的知識庫構建方法,其特征在于,所述步驟三中事實重建方法為:針對部分實體類型缺失的問題,設計多分類器對所述實體類型進行預測擴充,并基于類型約束生成候選實體集合,降低后續可連接實體搜索空間;
建立實體可連接關系模型,擬采用多層感知機模型,建立實體的分布式表示與可連接關系間的分類模型,同時建立反傳機制,利用所述多層感知機對所述實體的分布式表示進行修正;
通過基本的多元關系表示學習模型和可連接關系模型的迭代,得到同時滿足兩類約束的模型參數,并利用實體相關性代價函數來進一步確定實體間的相關性,過濾不滿足可連接關系的實體對;
得到可連接關系的多元關系實例,擬將該問題抽象為最大團發現問題,設計基于啟發式規則和剪枝策略的最大團擴展算法,實現事實的高效重建。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010099748.7/1.html,轉載請聲明來源鉆瓜專利網。





