[發明專利]一種基于注意力機制的實體關系聯合抽取方法和系統有效
| 申請號: | 201910048837.6 | 申請日: | 2019-01-18 |
| 公開(公告)號: | CN109902145B | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 虎嵩林;周艷;黃龍濤;韓冀中 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06N3/08 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 機制 實體 關系 聯合 抽取 方法 系統 | ||
本發明涉及一種基于注意力機制的實體關系聯合抽取方法和系統。該方法的步驟包括:將訓練數據中標注的實體和關系的三元組,轉化為每個詞對應一個預定義類型的標簽的形式;將訓練數據的句子中的每個詞映射成對應的詞向量,輸入基于注意力機制的神經網絡模型,并通過反向傳播算法進行訓練,得到標簽預測模型;將需進行實體關系抽取的句子輸入訓練完成的標簽預測模型,預測出每個詞對應的標簽,根據標簽和三元組中每個詞的對應關系,得到句子中存在的實體關系三元組。該系統包括預處理模塊、模型訓練模塊和結果處理模塊。本發明通過更有效的利用句子中的關鍵信息,提升了關系實體聯合抽取的性能,具有良好的實用性。
技術領域
本發明涉及深度學習與自然語言處理技術,具體涉及一種基于注意力機制的實體關系聯合抽取方法和系統。
背景技術
近年來,互聯網信息技術高速發展,新聞、社交等網站每天有海量的新數據產生出來。這些數據中包含著各種各樣的內容,其中有很多十分有價值的信息,這些信息對人們的生活起著至關重要的作用。為了抽取并有效使用這些有價值的信息,提出了知識圖譜的概念。在知識圖譜中把海量數據中的人名、地名等專用名詞表示為實體,并且將任意兩個實體之間的聯系表示為關系。這樣海量的數據即被表示為實體和關系的三元組(實體1,關系,實體2)。雖然現有的知識圖譜已經包含數億計的數據,但是網絡上的信息每天不斷增加,知識圖譜中的信息也需要隨之進行完善。
為了自動化的對知識圖譜進行完善,人們進行了多方面的技術研究,實體關系抽取技術就是其中一種。實體關系抽取主要任務是識別出文本中的實體并確定實體之間存在的語義關系。利用實體關系抽取可以把非結構化的文本轉化為結構化的文本,幫助人們更快速便捷的找到所需信息。
目前,實體關系抽取根據抽取方式分為兩種類型:流水線式和聯合抽取方式。流水線式的實體關系抽取需要先進行實體識別任務,然后根據識別出來的實體,對任意兩個實體之間的關系進行分類。這種方式可能沒有考慮實體和關系之間的聯系,并且實體識別結果的正確與否會直接影響到關系分類的結果。聯合抽取方式可以充分利用實體和關系之間的聯系,能夠取得更好的抽取效果。近期提出的基于序列標注的方式進行實體關系聯合抽取可以更好的利用實體和關系的相互關聯。雖然這類方法采用了神經網絡進行標簽序列的預測,但是并未對句子的詞,對當前被預測詞的重要程度進行區分,這樣也就無法更好的利用有關聯詞的信息同時忽略無關詞的信息。
發明內容
針對上述技術問題,本發明提出一種基于注意力機制的神經網絡結構,來充分利用整個輸入句子中的關鍵信息,提高實體關系抽取的性能。
為了解決上述技術問題,本發明的技術方案如下:
一種基于注意力機制的實體關系聯合抽取方法,包括如下步驟:
將訓練數據中標注的實體和關系的三元組,轉化為每個詞對應一個預定義類型的標簽的形式;
將訓練數據的句子中的每個詞映射成對應的詞向量,輸入基于注意力機制的神經網絡模型,并通過反向傳播算法進行訓練,得到標簽預測模型;
將需進行實體關系抽取的句子輸入訓練完成的標簽預測模型,預測出每個詞對應的標簽,根據標簽和三元組中每個詞的對應關系,得到句子中存在的實體關系三元組。
進一步地,每個所述標簽包含三類信息:詞在實體中的位置,實體所在的三元組對應的關系類型,實體在三元組中的位置,即屬于第一個還是第二個實體。
進一步地,所述詞在實體中的位置按照BIES的模式進行表示;所述關系類型為預定義的關系類型中的一種;所述實體在三元組中的位置用1或者2來表示,其中1表示三元組中第一個實體,2表示三元組中第二個實體;用標簽O表示詞不屬于任何三元組。
進一步地,通過爬取大量的非標注語料,訓練得到具有語義信息的詞向量表示,用于將輸入所述基于注意力機制的神經網絡模型的句子中的每個詞映射成對應的詞向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910048837.6/2.html,轉載請聲明來源鉆瓜專利網。





