[發(fā)明專利]一種事件抽取方法、裝置和計算機可讀存儲介質在審
| 申請?zhí)枺?/td> | 202010434130.1 | 申請日: | 2020-05-21 |
| 公開(公告)號: | CN111723568A | 公開(公告)日: | 2020-09-29 |
| 發(fā)明(設計)人: | 徐猛;付驍弈;張杰 | 申請(專利權)人: | 上海明略人工智能(集團)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 王康;龍洪 |
| 地址: | 200232 上海市徐*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 事件 抽取 方法 裝置 計算機 可讀 存儲 介質 | ||
1.一種事件抽取方法,其特征在于,所述方法包括:
獲得待進行事件抽取的文本中每一條語句的向量化語義表示W1;
通過多標簽分類對所述每一條語句的向量化語義表示W1進行事件類型識別;并對所述每一條語句的向量化語義表示W1進行片段span劃分,獲得每個span的語義表示W2;
將識別出的每種事件類型以及所述每個span的語義表示W2進行兩兩配對,獲取多個事件類型-span對,對所述多個事件類型-span對進行分類,以確定每一個事件類型-span對中的span是否屬于該事件類型-span對中的事件類型所對應事件的論元。
2.根據權利要求1所述的事件抽取方法,其特征在于,所述方法還包括:預先將事件類型劃分為x種,將事件的論元類型劃分為y種,將所述事件類型以及所述論元類型以外的類型作為其他類型other;其中,x、y均為正整數;
在獲得語句的向量化語義表示W1之前,包括以下操作:
事件類型標記:對所述文本進行事件類型標記,其中,如果所述文本中包含幾種事件類型,則將預先劃分出的x種事件類型和所述其他類型other所構成的事件類型向量中該幾種事件類型的對應位置處記為第一標識,并將所述事件類型向量中非該幾種事件類型對應位置處標記為第二標識;獲取所標記的事件類型的embedding以及所述事件類型的embedding的向量D_event;
論元標記:對每種事件類型以及每個span進行兩兩組合,并標記每個組合是否為事件類型-論元對;其中,當該組合是事件類型-論元對時,標記論元類型,當該組合不是事件類型-論元對時,標記為所述其他類型other。
3.根據權利要求2所述的事件抽取方法,其特征在于,所述獲得待進行事件抽取的文本中每一條語句的向量化語義表示W1包括:通過雙向LSTM網絡模型或BERT模型獲得每一條語句的向量化語義表示W1。
4.根據權利要求3所述的事件抽取方法,其特征在于,在通過雙向LSTM網絡獲得每一條語句的向量化語義表示W1之前,所述方法還包括:
將語句中的a個字符隨機初始化為一個維度為[a,b]的b維向量D,其中,對于從0到a-1的索引id,每個id對應一個不同的字符;對于長度為S的語句,該語句中每一個字符能夠在向量D中找到對應的id,從而獲得維度為[S,D]的向量;
通過雙向LSTM網絡獲得每一條語句的向量化語義表示W1包括:將維度為[S,D]的向量輸入預設的雙向LSTM神經網絡,將所述雙向LSTM神經網絡的輸出作為語句的向量化語義表示W1;
其中,所述向量化語義表示W1的維度為[S,D1];D1為2*LSTM隱層節(jié)點數。
5.根據權利要求3所述的事件抽取方法,其特征在于,通過BERT模型獲得每一條語句的向量化語義表示W1包括:將語句直接輸入所述BERT模型,將所述BERT模型的輸出作為語句的向量化語義表示W1;
其中,所述向量化語義表示W1的維度為[S,D1];D1=768。
6.根據權利要求4所述的事件抽取方法,其特征在于,所述通過多標簽分類對所述每一條語句的向量化語義表示W1進行事件類型識別包括:
對所述每一條語句的向量化語義表示W1進行最大池化操作,獲得一個維度為[1,D1]的語義表示W3;
將所述語義表示W3作為輸入數據,輸入第一兩層全連接神經網絡,通過所述第一兩層全連接神經網絡和sigmoid層進行分類,輸出一個維度為[1,x+1]的向量W4;其中所述向量W4中的每一個數值處于0-1之間,并且每一個數值分別對應x種事件類型和所述其他類型other這x+1種事件類型中的一種,所述向量W4表征屬于所述x+1種事件類型中每一種事件類型的概率;
將所述向量W4中大于預設閾值的數值對應的一種或多種事件類型識別為所述所述每一條語句的向量化語義表示W1所屬的事件類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海明略人工智能(集團)有限公司,未經上海明略人工智能(集團)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010434130.1/1.html,轉載請聲明來源鉆瓜專利網。





