[發明專利]一種基于多模態融合的知識庫構建方法在審
| 申請號: | 202010099748.7 | 申請日: | 2020-02-18 |
| 公開(公告)號: | CN111339313A | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 張日崇;譚智隆;劉幼峰 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/30 |
| 代理公司: | 北京中創陽光知識產權代理有限責任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多模態 融合 知識庫 構建 方法 | ||
本發明公開了一種基于多模態融合的知識庫構建方法,包括基于數據源中詞條的信息框信息抽取實體的基本屬性建立二元關系,生成所述信息框屬性與關系的映射字典;建立基于詞向量空間和條件隨機場的主題實體與關系提取模型,擴充所述二元關系生成多元關系模板;基于抽取到的所述二元關系的名稱構建實體的特征集合,對所述實體進行層次聚類劃分,構建分類體系,概括所述分類體系信息;對數據源中的數據以所述實體的固有屬性和屬性值進行屬性規范化;確定融合的數據集合,根據實體對齊算法識別不同數據源中的等價實體,建立不同數據源中同一實體的等價鏈接,進行多源數據融合;對進行所述多源數據融合后的知識圖譜進行糾正和擴充,實現知識的自動補全。
技術領域
本發明涉及計算機技術領域,尤其涉及一種基于多模態融合的知識庫構建方法。
背景技術
目大數據已經逐步滲透到科學技術發展、國民經濟和民眾日常生活的各個方面,從海量數據中發現知識和挖掘信息成為關鍵技術。自然語言處理的快速發展為知識圖譜的構建和擴充提供了可行性,而知識的抽取和統一表示為理解和關聯知識提供了理論和技術支持。2012年Google提出知識圖譜的概念,并將其作為向知識引擎邁進的關鍵和下一代搜索引擎的核心,實現客觀世界中知識和事物到互聯網中數據的轉換。知識圖譜的提出和快速發展,已經成為高校和企業進行知識轉化和表示的重要工具,為信息挖掘、語義解析、知識生成和知識推理提供了重要手段。
知識圖譜以大量復雜且結構化的知識,存儲與描述著互聯網中的數據,為機器提供了一種更加可讀的知識網絡,助力其從語義角度理解用戶的搜索意圖,從海量數據中快速、準確地獲得有價值的結果,并呈現與搜索結果關聯的整個知識體系,滿足信息時代人們更具深度與廣度的數據需求。知識庫中的知識條目(即事實,fact)被表示為一個形如(subject,relation,object)的三元組,其中subject和object表示實體,relation描述subject和object間的語義關系。將所有三元組組織在一起可以構成一個有向圖,圖中的節點和有向邊分別表示實體及其實體間的關系,通過這種方式從知識庫中得到的有向圖被稱為知識圖譜(Knowledge Graph)。
目前多源數據融合的問題主要有兩個:(1)來源于不同數據源的數據之間是多態、異構的,不同數據源之間可能在本體層面上有所不同,如屬性名的表達不同;(2)不同數據源之間可能存在沖突數據,由于一些不完整、錯誤、過時問題導致的數據沖突可能會對信息的獲取產生誤導。
發明內容
為解決上述技術問題,本發明的目的在于提供了一種一種基于多模態融合的知識庫構建方法,通過對整個知識庫構建中中包括本體構建、實體對齊以及知識融合等子步驟進行統一建模,對實體對齊、知識融合方面的準確率有所提升。
為實現上述目的,本發明的技術方案如下:
一種基于多模態融合的知識庫構建方法,包括:
步驟一:基于數據源中詞條的信息框信息抽取實體的基本屬性建立二元關系,生成所述信息框屬性與關系的映射字典;利用所述詞條的文本描述信息建立基于詞向量空間和條件隨機場的主題實體與關系提取模型,擴充所述二元關系生成多元關系模板;基于抽取到的所述二元關系的名稱構建實體的特征集合,對所述實體進行層次聚類劃分,構建分類體系,概括所述分類體系信息;
步驟二:對若干數據源中每個數據源中的數據以所述實體的固有屬性和屬性值進行屬性規范化;確定融合的數據集合,根據實體對齊算法識別不同數據源中的等價實體,建立不同數據源中同一實體的等價鏈接,進行多源數據融合;
步驟三:對進行所述多源數據融合后的知識圖譜進行糾正和擴充,對語義向量空間進行聯合學習以及鏈接預測,設計事實重建方法,實現知識的自動補全。
進一步,所述步驟二中所述實體對齊算法用于計算所述實體間的相似度,當相似度超過設定的閾值時,所述實體為等價實體,其中,所述相似度為兩個所述實體間本文描述的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010099748.7/2.html,轉載請聲明來源鉆瓜專利網。





