[發明專利]一種事件抽取方法和裝置有效
| 申請號: | 202010187298.7 | 申請日: | 2020-03-17 |
| 公開(公告)號: | CN111428504B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 徐猛;付驍弈 | 申請(專利權)人: | 北京明略軟件系統有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F16/35;G06N3/045;G06N3/0442 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 王康;龍洪 |
| 地址: | 100084 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 事件 抽取 方法 裝置 | ||
本申請公開了一種事件抽取方法和裝置,該方法包括:獲得語句的向量化語義表示W1;根據向量化語義表示W1中設置的token進行觸發詞識別,并根據向量化語義表示W1進行Span的劃分獲得的相應的Span語義表示進行實體識別;對每一個token和span進行兩兩結合,并標記結合后的token和span是否為(觸發詞?論元)對。通過該實施例方案,能夠獲取更加有用的信息,具有較強的實際應用價值;操作簡單,避免了因使用自然語言處理工具而導致的誤差累積的問題;通過劃分span的方式完美解決了序列標注存在的問題,效率更高,適用性更強。
技術領域
本文涉及事件數據處理技術,尤指一種事件抽取方法和裝置。
背景技術
互聯網上每天都會產生大量的新聞數據,描述許多已經發生的事件。但由于事件種類繁多,無法快速而且準確地分辨事件的類型以及事件的各個因素,如時間,地點,參與人等信息。
對發生的公共事件或者特定行業內所發生的事件進行區分和主體識別,不僅有助于實時把握事件的發展趨勢以及整個行業的發展方向,也可輔助高層決策,降低風險。具有重要的實際應用價值和研究意義。
現有的識別方法:[1]基于圖神經網絡的模型;[2]基于深度學習、注意力機制、序列標注的模型等。
現有方法存在以下缺點:
1、現有方法有的只進行事件類型檢測即事件觸發詞,并沒有進行事件主體(或稱實體)抽取,任務單一,不具備較強的實際應用價值。有的方法雖然進行了事件觸發詞識別和論元識別,但是依賴了人工事先標記好的實體,但是這在實際應用中并不存在。
2、現有進行事件檢測的方法大都輔助使用已有的自然語言處理工具,但是在實際應用中并不能通過這些工具預先處理好。現有方法大都使用特定的自然語言處理工具如Jieba,ltp,standfordNLP等首先對句子進行分詞,建立依存樹,然后再將這些特征輸入模型。缺點在于:首先處理繁瑣,其次這些工具在處理的過程中本身具有一定的誤差,因此在后續建模分析的過程中會存在誤差累積的問題。
3、基于序列標注的一系列模型很難解決事件主體存在交叉的情況,比如“北京的法院”為一個事件主體(機構),但是“北京”本身也是一種主體/實體(地名)。
發明內容
本申請提供了一種事件抽取方法和裝置,能夠獲取更加有用的信息,具有較強的實際應用價值;在數據處理和建模的過程中操作簡單,避免了因使用自然語言處理工具而導致的誤差累積的問題;通過劃分span的方式,完美解決了序列標注存在的問題,效率更高,適用性更強。
本申請提供了一種事件抽取方法,所述方法可以包括:
獲得語句的向量化語義表示W1;
根據所述向量化語義表示W1中設置的token進行觸發詞識別,并根據所述向量化語義表示W1進行span的劃分獲得的相應的span語義表示進行實體識別;
對每一個token和span進行兩兩結合,并標記結合后的token和span是否為(觸發詞-論元)對。
在本申請的示例性實施例中,所述獲得語句的向量化語義表示W1可以包括:通過雙向LSTM網絡模型或BERT模型獲得語句的向量化語義表示W1。
在本申請的示例性實施例中,在通過雙向LSTM網絡獲得語句的向量化語義表示W1之前,所述方法還可以包括:將語句中的a個字符隨機初始化為一個維度為[a,b]的b維向量D,其中,對于從0到a-1的索引id,每個id對應一個不同的字符;對于長度為S的語句,該語句中每一個字符能夠在向量D中找到對應的id,從而獲得維度為[S,D]的向量;
通過雙向LSTM網絡獲得語句的向量化語義表示W1可以包括:將維度為[S,D]的向量輸入預設的雙向LSTM神經網絡,將所述雙向LSTM神經網絡的輸出作為語句的向量化語義表示W1;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略軟件系統有限公司,未經北京明略軟件系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010187298.7/2.html,轉載請聲明來源鉆瓜專利網。





