[發明專利]一種事件抽取方法、系統、存儲介質以及設備在審
| 申請號: | 202010952877.6 | 申請日: | 2020-09-11 |
| 公開(公告)號: | CN112084381A | 公開(公告)日: | 2020-12-15 |
| 發明(設計)人: | 江疆;錢正浩;蔣道環;鄭杰生;高尚;吳廣財;劉文彬;鄭穎龍;周昉昉;曾紀鈞 | 申請(專利權)人: | 廣東電網有限責任公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F40/126;G06N20/00 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 楊小紅 |
| 地址: | 510600 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 事件 抽取 方法 系統 存儲 介質 以及 設備 | ||
本發明公開了一種事件抽取方法、系統、存儲介質以及設備。本發明通過匹配法對文本中的字符串進行匹配,得到候選事件元素,將候選事件元素輸入到訓練好的BERT序列標注模型中,得到候選事件元素的觸發詞以及觸發詞的特征并將兩者輸入到訓練好的Argument Span模型中,得到事件元素;最后將觸發詞和事件元素進行組合,從而形成一個完整事件。本發明在進行事件抽取的過程中無需進行人工標注,利用匹配法來獲取候選事件元素,利用機器學習來完成觸發詞和事件元素的抽取,將字符串多模匹配算法和機器學習相互結合完成了事件抽取,大大提高了事件抽取的準確率以及效率。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種事件抽取方法、系統、存儲介質以及設備。
背景技術
隨著信息技術的不斷發展,目前,基本上所有的信息都可以在互聯網中獲取;然而,互聯網中的信息數目過于龐大,為了幫助用戶在海量信息中快速找到所需要的信息,提出了事件抽取的概念。事件抽取主要用于提取文本中最主要的事件,具體的主要工作是從一段文本中識別出發生的事件以及事件中的各個元素。現有的事件抽取方法一般是將模型回標或者人工標注的作為測試數據,然后將這些標注好的數據進行輸入到模型中進行訓練,得到訓練好的模型,但現有的方法存在以下缺陷:
由于不同的任務往往要定義不同的事件類型,不同的事件類型無法使用通用的訓練數據,因此需要消耗大量的時間和精力來標注專屬的數據,人工標注的結果普遍存在一致性差、準確度低等問題,從而也導致了后續對事件識別的準確率比較低。
綜上所述,現有技術中對事件進行抽取時,存在著事件抽取的準確率比較低的技術問題。
發明內容
本發明提供了一種事件抽取方法、系統、存儲介質以及設備,用于解決現有技術中對事件進行抽取時,存在著事件抽取的準確率比較低的技術問題。
本發明提供的一種事件抽取方法,所述方法適用于預先訓練好的BERT序列標注模型以及預先訓練好的Argument Span模型,所述方法包括以下步驟:
S1:獲取文本中的待匹配字符串,基于匹配法對文本中的待匹配字符串進行匹配處理,得到候選事件元素;其中,匹配法為模式匹配法或字符串匹配法;
S2:對經過匹配處理的字符串進行預處理,將經過預處理的字符串輸入到訓練好的BERT序列標注模型中,得到候選事件元素的觸發詞以及觸發詞的特征;將候選事件元素的觸發詞以及觸發詞的特征輸入到訓練好的Argument Span模型中,得到事件元素;
S3:將觸發詞和事件元素進行組合,形成一個完整事件。
優選的,模式匹配法基于正則表達式從待匹配字符串中匹配出候選事件元素;字符串匹配法基于AC自動機從待匹配字符串中匹配出候選事件元素。
優選的,AC自動機根據預先設置的字符串匹配規則生成。
優選的,在AC自動機中為字符串匹配規則分配權重,AC自動機在匹配過程中優先選擇權重最大的字符串匹配規則進行匹配。
優選的,訓練好的BERT序列標注模型以BIO格式輸出每一個觸發詞,其中B代表觸發詞中的起始字符,I代表觸發詞的中間字符,O表示該字符不在詞匯中。
優選的,BERT序列標注模型由嵌入層、編碼層、輸出層組成;其中,嵌入層包括子詞嵌入層、位置嵌入層和分割嵌入層,編碼層為BertEncoder,輸出層為全連接層。
優選的,觸發詞的特征為觸發詞的位置。
一種事件抽取系統,包括字符串匹配模塊、字符串預處理模塊、BERT序列標注模型模塊、Argument Span模型模塊以及事件組合模塊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司,未經廣東電網有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010952877.6/2.html,轉載請聲明來源鉆瓜專利網。





