[發明專利]基于注意力機制的事件抽取方法及系統在審
| 申請號: | 202011301062.8 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112307761A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 李明玉;劉方然;徐常亮;賀大為 | 申請(專利權)人: | 新華智云科技有限公司;新華通訊社新媒體中心 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 田金霞 |
| 地址: | 310012 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 機制 事件 抽取 方法 系統 | ||
1.一種基于注意力機制的事件抽取方法,其特征在于,包括以下步驟:
將事件觸發詞和事件論元作為抽取詞,收集樣本文本及其事件類型,還為所述樣本文本中各抽取詞所對應的每個字標注樣本標簽;
提取所述樣本文本中每個字的向量,獲得樣本文本向量,提取所述事件類型中每個字的向量,獲得樣本類型向量;
基于所述樣本文本向量、所述樣本類型向量和所述樣本標簽訓練獲得抽取詞預測模型;
獲取待處理文本及其事件類型,提取所述待處理文本中各字的向量,獲得文本向量數據,提取所述事件類型中各字的向量,生成事件類型向量數據;
將所述文本向量數據和所述事件類型向量數據輸入所述抽取詞預測模型,獲得所述待處理文本中每個字所對應的標簽所形成的標簽序列;
基于所述標簽序列對所述待處理文本進行事件抽取,獲得相應的事件觸發詞和事件論元。
2.根據權利要求1所述的基于注意力機制的事件抽取方法,其特征在于:
所述標簽用于指示所對應的字是否屬于抽取詞,以及當其屬于抽取詞時,所述字在抽取詞中的中的位置和所述抽取詞的類別。
3.根據權利要求2所述的基于注意力機制的事件抽取方法,其特征在于,所述抽取詞預測模型包括:
第一表征層,用于對所述文本向量數據進行計算,生成文本序列表征;
第二表征層,用于對所述事件類型向量數據進行計算,生成事件類型表征;
注意力層,用于基于注意力機制,根據所述事件類型表征和所述文本序列表征生成注意力文本序列表征;
特征拼接層,用于將所述文本序列表征和所述注意力文本序列表征進行逐字拼接,生成融合文本序列表征;
全連接層,用于對所述融合文本序列表征進行全連接處理,獲得對應字屬于各類別的標簽的概率,生成標簽矩陣;
CRF層,基于條件隨機場對所述標簽矩陣進行解碼,獲得各字的標簽,生成相應的識別結果序列。
4.根據權利要求3所述的基于注意力機制的事件抽取方法,其特征在于:
所述注意力層,用于基于所述事件類型表征計算所述文本序列表征中各表征所對應的注意力權重,并基于所述注意力權重對所述文本序列表征進行加權計算,生成注意力文本序列表征。
5.根據權利要求4所述的基于注意力機制的事件抽取方法,其特征在于,所述注意力權重的計算公式為:
其中,he為事件類型表征,為文本序列表征中第j個表征,0<j≤n,n為待處理文本中字的數量;f(·)函數表示點乘計算,σ(·)函數為sigmoid激活函數,exp(·)為指數函數。
6.根據權利要求5所述的基于注意力機制的事件抽取方法,其特征在于:
第一表征層和第二表征層均為Bi-LSTM層。
7.根據權利要求1至6任一所述的基于注意力機制的事件抽取方法,其特征在于:
文本向量數據和事件類型向量數據均為BERT向量。
8.一種基于注意力機制的事件抽取系統,其特征在于,包括模型構建模塊和抽取模塊;
所述模型構建模塊,用于將事件觸發詞和事件論元作為抽取詞,收集樣本文本及其事件類型,還為所述樣本文本中各抽取詞所對應的每個字標注樣本標簽;還用于提取所述樣本文本中每個字的向量,獲得樣本文本向量,提取所述事件類型中每個字的向量,獲得樣本類型向量;還用于基于所述樣本文本向量、所述樣本類型向量和所述樣本標簽訓練獲得抽取詞預測模型;
所述抽取模塊包括預處理單元、預測單元和抽取單元;
所述預處理單元,用于獲取待處理文本及其事件類型,提取所述待處理文本中各字的向量,獲得文本向量數據,提取所述事件類型中各字的向量,生成事件類型向量數據;
所述預測單元,用于將所述文本向量數據和所述事件類型向量數據輸入所述抽取詞預測模型,獲得所述待處理文本中每個字所對應的標簽所形成的標簽序列;
所述抽取單元,用于基于所述標簽序列對所述待處理文本進行事件抽取,獲得相應的事件觸發詞和事件論元。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華智云科技有限公司;新華通訊社新媒體中心,未經新華智云科技有限公司;新華通訊社新媒體中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011301062.8/1.html,轉載請聲明來源鉆瓜專利網。





