[發明專利]一種基于注意力機制的實體關系聯合抽取方法和系統有效
| 申請號: | 201910048837.6 | 申請日: | 2019-01-18 |
| 公開(公告)號: | CN109902145B | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 虎嵩林;周艷;黃龍濤;韓冀中 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06N3/08 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 機制 實體 關系 聯合 抽取 方法 系統 | ||
1.一種基于注意力機制的實體關系聯合抽取方法,其特征在于,包括以下步驟:
將訓練數據中標注的實體和關系的三元組,轉化為每個詞對應一個預定義類型的標簽的形式;
將訓練數據的句子中的每個詞映射成對應的詞向量,輸入基于注意力機制的神經網絡模型,并通過反向傳播算法進行訓練,得到標簽預測模型;
將需進行實體關系抽取的句子輸入訓練完成的標簽預測模型,預測出每個詞對應的標簽,根據標簽和三元組中每個詞的對應關系,得到句子中存在的實體關系三元組;
所述基于注意力機制的神經網絡模型的訓練過程包括:
1)將輸入句子中的每個詞映射成對應的詞向量;
2)在編碼層,把句子中每個詞對應的詞向量作為輸入,采用雙向長短記憶神經網絡Bi-LSTM學習句子中每個詞的上下文信息;
3)在注意力層,利用注意力機制學習對每個詞的標簽起關鍵作用的詞表示,并將其和編碼層學習到的上下文信息表示進行合并,得到每個詞對應的有效向量表示dt;
4)在解碼層,對于輸入的第t個詞,將有效向量表示dt作為輸入,利用長短記憶網絡的鏈式網絡,計算每個標簽的向量表示Tt;所述長短記憶網絡把第t個詞的標簽的表示向量作為下一個詞預測的輸入之一,學習到序列標簽之間的依賴關系;
5)根據得到的標簽的向量表示進行計算,得到每個詞的對應到各類標簽的概率;
6)選取所有樣本的最大似然函數作為模型的目標函數;
7)通過反向傳播算法訓練模型,更新模型中所有的參數,最終得到標簽的預測模型。
2.根據權利要求1所述的方法,其特征在于,每個所述標簽包含三類信息:詞在實體中的位置,實體所在的三元組對應的關系類型,實體在三元組中的位置,即屬于第一個還是第二個實體。
3.根據權利要求2所述的方法,其特征在于,所述詞在實體中的位置按照BIES的模式進行表示;所述關系類型為預定義的關系類型中的一種;所述實體在三元組中的位置用1或者2來表示,其中1表示三元組中第一個實體,2表示三元組中第二個實體;用標簽O表示詞不屬于任何三元組。
4.根據權利要求1所述的方法,其特征在于,通過爬取大量的非標注語料,訓練得到具有語義信息的詞向量表示,用于將輸入所述基于注意力機制的神經網絡模型的句子中的每個詞映射成對應的詞向量。
5.根據權利要求1所述的方法,其特征在于,步驟3)包括:
3-1)計算句子中的詞和當前被預測詞相關性的權重,計算公式為:
其中hj表示從編碼層得到的第j個詞的向量表示,hk表示從編碼層得到的第k個詞的向量表示,Tt-1表示第t-1個詞的標簽的向量表示,n表示句子的長度;αj,t代表句子中第j個詞和被預測的第t個詞的相關程度;
3-2)將αj,t和詞對應的向量表示相乘并進行加權,得到標簽相關詞表示:
3-3)利用門控機制把詞的上下文信息表示和標簽相關詞表示進行融合,得到每個詞對應的有效向量表示dt。
6.根據權利要求5所述的方法,其特征在于,步驟3-3包括:
3-3-1)計算上下文信息表示和標簽相關詞表示各自占有的權重,計算公式為:
其中σ表示邏輯函數,表示權重矩陣,其中ht表示從編碼層得到的第t個詞的向量表示;
3-3-2)把計算出來的權重和這兩類表示進行加權,得到包含詞的上下文信息和關鍵詞信息的表示向量,即每個詞對應的有效向量表示:dt=gthat+(1-gt)ht。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910048837.6/1.html,轉載請聲明來源鉆瓜專利網。





