[發明專利]一種事件抽取方法和裝置有效
| 申請號: | 202010187298.7 | 申請日: | 2020-03-17 |
| 公開(公告)號: | CN111428504B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 徐猛;付驍弈 | 申請(專利權)人: | 北京明略軟件系統有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F16/35;G06N3/045;G06N3/0442 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 王康;龍洪 |
| 地址: | 100084 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 事件 抽取 方法 裝置 | ||
1.一種事件抽取方法,其特征在于,所述方法包括:
預先將觸發詞類型劃分為x種,將實體類型劃分為y種,將事件論元類型劃分為z種,將所述觸發詞類型、所述實體類型以及所述事件論元類型以外的類型作為其他類型other;其中,x、y、z均為正整數;
在獲得語句的向量化語義表示W1之前,進行以下任意一種或多種操作:
在語句中設置一個或多個token;每一個token用于標記當前詞語是否為所述觸發詞類型;每個token表示x種類型中的任意一種;
根據設定的span寬度,對語句進行span劃分,以將語句劃分為多個span,并對每個span進行標記,以確定當前span是否屬于實體類型;每個標記表示y種類型中的任意一種;
對標記的每一個token和span進行兩兩結合,并標記結合后的token和span是否為(觸發詞-論元)對;
獲得語句的向量化語義表示W1;
根據所述向量化語義表示W1中設置的token進行觸發詞識別;
根據所述向量化語義表示W1進行span的劃分獲得的相應的span語義表示進行實體識別,包括:對所述向量化語義表示W1進行span劃分,得到多個語義片段;對多個語義片段進行平均池化,得到每個span的表示W3;將每個span的表示W3作為輸入,使用兩層全連接神經網絡和softmax層對每個span進行分類,輸出維度為[N,y+1]的向量W4,向量W4表示每個span屬于每一類型實體的概率;
其中,所述對所述向量化語義表示W1進行span劃分,得到多個語義片段;對多個語義片段進行平均池化,得到每個span的表示W3,包括:獲取設定的span的最大寬度max_span_width;根據span的寬度從1到max_span_width依次在所述向量化語義表示W1上進行選取,獲得N個span的語義表示span_embedding;對N個span的語義表示span_embedding進行平均池化,得到每個span的表示W3;
對每一個token和span進行兩兩結合,并標記結合后的token和span是否為(觸發詞-論元)對。
2.根據權利要求1所述的事件抽取方法,其特征在于,所述獲得語句的向量化語義表示W1包括:通過雙向LSTM網絡模型或BERT模型獲得語句的向量化語義表示W1。
3.根據權利要求2所述的事件抽取方法,其特征在于,在通過雙向LSTM網絡獲得語句的向量化語義表示W1之前,所述方法還包括:將語句中的a個字符隨機初始化為一個維度為[a,b]的b維向量D,其中,對于從0到a-1的索引id,每個id對應一個不同的字符;對于長度為S的語句,該語句中每一個字符能夠在向量D中找到對應的id,從而獲得維度為[S,D]的向量;
通過雙向LSTM網絡獲得語句的向量化語義表示W1包括:將維度為[S,D]的向量輸入預設的雙向LSTM神經網絡,將所述雙向LSTM神經網絡的輸出作為語句的向量化語義表示W1;
其中,所述向量化語義表示W1的維度為[S,D1];D1為2*LSTM隱層節點數。
4.根據權利要求2所述的事件抽取方法,其特征在于,通過BERT模型獲得語句的向量化語義表示W1包括:將語句直接輸入所述BERT模型,將所述BERT模型的輸出作為語句的向量化語義表示W1;
其中,所述向量化語義表示W1的維度為[S,D1];D1=768。
5.根據權利要求1所述的事件抽取方法,其特征在于,所述根據所述向量化語義表示W1中設置的token進行觸發詞識別包括:
通過兩層全連接神經網絡和softmax層對每個token進行分類,獲得維度為[S,x+1]的向量W2,向量W2表示每個token屬于每一類型觸發詞的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略軟件系統有限公司,未經北京明略軟件系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010187298.7/1.html,轉載請聲明來源鉆瓜專利網。





