[發明專利]一種基于知識圖譜建立實體統一模型及實體統一方法在審
| 申請號: | 202110421927.2 | 申請日: | 2021-04-20 |
| 公開(公告)號: | CN113032582A | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 朱安安;邱彥林;趙粉玉;俞一奇 | 申請(專利權)人: | 杭州敘簡科技股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 杭州浙言專利代理事務所(普通合伙) 33370 | 代理人: | 易朝暉 |
| 地址: | 311121 浙江省杭州市余杭區*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 建立 實體 統一 模型 方法 | ||
本發明公開了一種基于知識圖譜建立實體統一模型的方法,所述方法包括:構建實體基于描述信息的第一訓練數據和基于結構信息的第二訓練;采用所述TransH模型分別獲得所述頭實體、關系以及尾實體的結構表示向量;采用BERT+Bi?LSTM模型對所述頭實體和所述尾實體的描述信息進行編碼獲得描述表示向量,其中,所述BERT+Bi?LSTM模型后接CRF層對編碼進行命名實體識別;將所述結構表示向量與所述描述表示向量結合進行三元組驗證所述BERT+Bi?LSTM模型訓練;將訓練完成的所述BERT+Bi?LSTM模型作為實體統一模型。
技術領域
本申請涉及知識圖譜領域,尤其涉及一種基于知識圖譜建立實體統一模型及實體統一方法。
背景技術
知識圖譜本質上是一種語義網絡的知識庫,是一種基于圖的數據結構,由節點和邊組成。近年來,面向特定領域知識圖譜的構建也越來越受到關注。面向特定領域,基于行業數據及領域內專家提供的相關知識構建行業知識圖譜,將不同種類的信息相連接得到一個實體之間的關系網絡,為特定領域提供了從“關聯關系”的角度去分析推理問題的方式。
目前,由于化工行業專業性較強,知識圖譜在化工行業的應用還較為少見,化工行業知識圖譜構建后,知識的補充主要依靠純文本的信息抽取而產生。信息抽取出的實體需要經過實體統一等環節清洗掉錯誤和冗的數據。在以往的知識補充環節,實體統一往往依靠計算實體字符串之間的相似度,或將實體通過預訓練模型、TF-IDF等模型轉化為向量進行向量間的相似度計算,當相似度大于一定閾值時即判定為同一實體。但由于化工行業中化學物品、相關器械設備的名稱較為相似,常用的實體統一方法并不能達到較好的效果。另外,知識圖譜的構建過程中,往往需要采用知識表示模型將已有的實體、關系等信息轉化為向量,方便后續進行鏈路預測、三元組的驗證等工作。但常用的知識表示模型只能將已知的實體與關系轉化為向量,難以擴展。通過信息抽取產生的新實體難以通過已有的知識表示模型轉化為向量。鑒于此,需要一種或多種實體統一方法針對化工知識圖譜這一特定情況改善知識表示模型的構建策略以及知識補充中實體統一的方法,將語義信息與圖結構信息融合,以提高實體統一的準確率和知識表示的可擴展性。
發明內容
本申請要解決的技術問題,在于提供一種基于知識圖譜建立實體統一模型及實體統一方法,以解決現有知識表示模型只能將已知的實體與關系轉化為向量,而通過信息抽取產生的新實體難以通過已有的知識表示模型轉化為向量的技術問題。
為實現上述目的,本申請采用下述技術方案:
第一方面,本申請提供一種基于知識圖譜建立實體統一模型的方法,所述方法包括:
構建實體基于描述信息的第一訓練數據和基于結構信息的第二訓練數據,其中,所述描述信息包括描述語料和命名語料,所述描述語料通過知識圖譜的結構化數據中獲得,所述命名語料通過知識圖譜的非結構化數據獲得,所述結構信息通過翻譯模型中的TransH模型進行所述實體的結構信息的表示獲得,其中,所述實體以三元組數據的頭實體、關系以及尾實體表示;
采用所述TransH模型分別獲得所述頭實體、關系以及尾實體的結構表示向量;
采用BERT+Bi-LSTM模型對所述頭實體和所述尾實體的描述信息進行編碼獲得描述表示向量,其中,所述BERT+Bi-LSTM模型后接CRF層對編碼進行命名實體識別;
將所述結構表示向量與所述描述表示向量結合進行三元組驗證所述BERT+Bi-LSTM模型訓練,其中,所述BERT+Bi-LSTM模型訓練的損失函數為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州敘簡科技股份有限公司,未經杭州敘簡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110421927.2/2.html,轉載請聲明來源鉆瓜專利網。





