[發明專利]一種基于知識圖譜嵌入的多三元組聯合抽取方法有效
| 申請號: | 202010198105.8 | 申請日: | 2020-03-19 |
| 公開(公告)號: | CN111444305B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 陳華鈞;余海陽;鄧淑敏;張寧豫 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/36;G06F40/30;G06N3/04 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 嵌入 三元 聯合 抽取 方法 | ||
本發明公開了一種基于知識圖譜嵌入的多三元組聯合抽取方法,包括:對獲取的文本語句進行處理,得到文本語句矩陣;將文本語句矩陣輸入到Transformer模型中提取文本語句的語義信息,得到語義特征向量;將語義特征向量用于實體識別序列標注任務,求得實體識別交叉熵損失loss1;將語義特征向量用于關系分類任務,求取關系分類的實體識別交叉熵損失loss2;利用實體標注預測矩陣和語句實體詞關系分類矩陣構造實體詞關系,求取關系的交叉熵損失loss3;利用loss1、loss2和loss3基于梯度下降的優化算法計算最小化總的損失函數loss,得到訓練后的Transformer模型,利用待預測文本語句輸入訓練后的Transformer模型,得到預測文本語句的預測語義特征向量,完成多個三元組聯合抽取方法。
技術領域
本發明涉及數據存儲與處理技術領域,具體涉及一種知識圖譜中三元組抽取的方法。
背景技術
知識圖譜以結構化的形式描述客觀世界中的概念、實體及其關系,將互聯網的信息表達成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯網海量信息的能力,知識圖譜主要包含實體、關系和三元組,每一個三元組表示一條知識。當兩個實體之間存在某一種關系時,用(h,r,t)表示一個三元組,其中h,t分別表示頭實體和尾實體,r表示關系,例如(中國,首都,北京)即表示了“北京是中國的首都”這么一條知識。
實體關系學習是自動化地從文本中檢測和識別出實體之間具有的語義關系,也稱為關系抽取,關系抽取是知識圖譜構建和信息抽取中的一個關鍵環節,具有重要的理論意義和廣闊的應用前景,為多種應用提供重要的支持,如大規模知識圖譜自動化構建,包括如WordNet、HowNet等常識知識圖譜中的通用語義知識,以及金融、醫療等垂直應用領域的定制知識圖譜。信息檢索、智能推薦、問答系統等知識圖譜應用技術的優劣程度嚴重依賴于上層圖譜構建的質量。
目前關系抽取的方法,主要分為基于規則的方法和基于機器學習的方法。傳統專家依靠預定義好的規則手工編撰的方式構建知識庫,不僅費時費力,而且存在知識覆蓋率低、數據稀疏、更新緩慢等缺點。基于機器學習的方法則可以自動化地抽取三元組。自從深度學習發展起來后,學者側重于使用深度神經網絡模型處理關系抽取任務。
深度學習的方法抽取三元組,目前有分步抽取和端到端抽取兩種方式。使用分步抽取的方式,即先識別出文本語料中的實體,標注出頭實體h和尾實體t,再抽取出兩者的關系r。這種方式會導致錯誤傳播,第一步抽取中的錯誤會傳遞到第二步中,導致整體的正確率下降。而端到端抽取可避免這種錯誤傳播。但是目前端到端抽取模型,不適合抽取多個三元組,或者抽取多個三元組時不允許有共享實體的情況。而真實語料中的知識情況比較復雜。例如句子“在浙江的這段旅程中,最讓我難忘的還是杭州那美麗的西湖”中,存在實體:“浙江”、“杭州”、“西湖”,存在三元組有(浙江,省會,杭州),(杭州,位于,浙江),(浙江,旅游景點,西湖),(杭州,旅游景點,西湖)。這些三元組間共享部分實體,三元組間存在推理交互,抽取難度上升。
另外知識圖譜中的知識表示學習,也是近年來研究的熱點。研究者希望構建模型將實體與關系映射到低維向量,從而學習出知識庫中的實體與關系的表示,其中基于詞向量空間中存在詞匯語義與句法關系平移不變現象的啟發,而提出的TransE系列的知識嵌入模型成為知識表示學習的代表模型。
發明內容
本發明提供了一種基于知識圖譜嵌入的多三元組聯合抽取方法,該模型訓練階段引入知識表示學習下的知識圖譜嵌入,從而兼顧到不同關系間的推理交互作用,一步抽取多個三元組,并解決實體共享導致的抽取難題。
一種基于知識圖譜嵌入的多三元組聯合抽取方法,包括:
(1)獲取文本語句,對文本語句進行處理,得到處理后的文本語句矩陣。
所述的對文本語句進行處理,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010198105.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:目標檢測方法、裝置、電子設備和計算機可讀介質
- 下一篇:一種帶狀料的上料裝置





