[發明專利]一種基于Transformer的實體關系聯合抽取方法、介質及系統在審
| 申請號: | 202111480107.7 | 申請日: | 2021-12-06 |
| 公開(公告)號: | CN114398489A | 公開(公告)日: | 2022-04-26 |
| 發明(設計)人: | 張正;常光輝;黃海輝;胡新庭;陳浪 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 劉小紅 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 transformer 實體 關系 聯合 抽取 方法 介質 系統 | ||
本發明請求保護一種基于Transformer的實體關系聯合抽取方法、介質及系統,該方法的步驟包括:將訓練數據中標注的實體關系的三元組與訓練數據使用特殊的標識符連接;將處理過后的訓練數據中的詞進行向量化映射;將映射過后的訓練數據輸入到基于注意力機制的實體關系聯合抽取模型當中,并通過反向傳播算法進行模型的訓練,得到實體關系預測模型;再將需要進行實體關系聯合抽取的句子輸入到訓練好的模型中,預測出句子中的三元組關系。本發明通過將三元組抽取任務視為序列到序列的任務,通過參數共享的方法實現模型的聯合抽取。
技術領域
本發明屬于深度學習與自然語言處理技術,具體涉及一種基于Transformer 的實體關系聯合抽取方法和系統。
背景技術
隨著大數據時代的到來,互聯網上的數據量急速攀升,其中主要包含大量的 自然語言文本,如此大量的自然語言文本中蘊含了大量的隱藏知識,如何快速 高效地從開放領域的文本中抽取出隱藏的知識,成為了擺在人們面前的重要問 題。為了解決這個問題,信息抽取在1998年的MUC-7會議上被首次提出,實體 關系抽取是文本挖掘、信息抽取的核心任務,其通過對文本信息建模,自動抽 取出實體之間的語義關系,提取出有效的語義知識。
因此,為了從海量的非結構化數據中抽取出隱藏的知識,知識圖譜的概念被 提出。在知識圖譜中,把海量數據中的人名、地點等專有名詞表示為實體,并 將任意兩個實體之間的聯系表示為關系,通過三元組的形式(主實體,關系,副 實體)構建出知識圖譜。因此,為了自動化的抽取出結構化文本中的三元組,研 究者們提出了信息抽取的方法,其中基于流水線和聯合學習的方法為現在主要 的兩種方法。
目前,實體關系根據抽取方法分為流水線的方法和聯合學習的方法。流水線 的方法將實體關系抽取視為兩個子任務,先對文本進行命名實體識別,再對命 名實體之間的關系進行識別,稱為關系抽取。聯合抽取的方法是將命名實體識 別和關系抽取視為一個子任務,通過聯合學習的方法直接抽取出數據中的三元 組。避免了命名實體識別的準確率問題帶來的誤差累計問題,提高了實體關系 抽取的準確率,本專利所做的工作也是基于聯合學習的方法。提出了一種新的 實體關系聯合抽取的思路。
經過檢索,申請公開號CN111666427A,一種實體關系聯合抽取方法、裝置、 設備及介質,包括:獲取訓練樣本數據;利用所述訓練樣本數據對預先搭建的 實體關系抽取模型進行訓練,得到訓練后模型;其中,所述實體關系抽取模型 中包括自注意力層;所述自注意力層用于在訓練過程中基于句子中其他三元組 對當前預測關系的影響進行注意力計算;當獲取到待進行實體關系抽取的目標 文本,利用所述訓練后模型輸出對應的實體關系抽取結果。這樣,對包括自注 意力層的實體關系抽取模型進行訓練,能夠在實體關系的抽取過程中考慮其他 三元組對當前預測關系的影響,從而提升實體關系抽取的準確度。
公開號CN111666427A中提出基于Bert+cnn模型進行實體關系聯合抽取存 在的問題如下:
1.其存在較高的復雜度,不利于模型的落地,
2.同時,其使用的字級別矩陣難以解決三元組重疊問題,
3.最后,其依賴于CNN模型,該模型在解決長時序問題上也存在諸多弊端, 其無法捕獲長距離信息。
本發明專利針對其的改進方法如下:
1.首先,本發明專利引入了半標記半指針網絡,相較于公開號CN111666427A 有更好的解決三元組重疊問題的能力,
2.其次,本發明專利使用了transformer模型作為特征提取器,其在解決 長時序問題上優于CN111666427A所提出的模型。
3.最后,本發明模型減低模型復雜度的同時能夠獲得優于CN111666427A中 所提出的模型三元組抽取的效果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111480107.7/2.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





