[發明專利]一種基于事理邏輯的聯合事件抽取方法在審
| 申請號: | 202310363825.9 | 申請日: | 2023-04-06 |
| 公開(公告)號: | CN116383387A | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 宋勝利;段欣榮;李靖陽;胡光能 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/211;G06F40/284;G06F40/289;G06F40/30;G06F18/2415;G06F18/25;G06N3/0442;G06N3/045;G06N3/0464;G06N3/084 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 王會改 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 事理 邏輯 聯合 事件 抽取 方法 | ||
本發明公開了一種基于事理邏輯的聯合事件抽取方法,其包括:將句子輸入事理邏輯關系抽取模型,得到句子中的事件關系對;將句子中的事件關系對中每個事件輸入基于圖注意力網絡的聯合事件抽取模型,得到句子對應的抽取結果;抽取結果包括觸發詞分類及論元分類。本發明提高了句子中多個事件抽取的準確性。
技術領域
本發明涉及事件抽取技術領域,特別是一種基于事理邏輯的聯合事件抽取方法。
背景技術
隨著互聯網和文本挖掘技術的快速發展,事件任務的相關研究越來越受到研究人員的重視,一篇文本往往包含多個事件,這些事件可能都是圍繞同一個主題進行敘述。在這些事件之間,存在多種事理邏輯,如時序、因果、條件、轉折等,通過分析這些事理邏輯,可以更深入地了解文本中事件的演變和發展過程,并有助于推斷事件之間的關系。事件抽取是從非結構化數據中提取出結構化的事件信息的重要任務。通常包括四個子任務:觸發詞識別、事件類型檢測、事件論元識別和論元角色檢測。句子級事件抽取的研究方法可以分為基于管道方式和基于聯合方式。管道方式先識別事件類型,再提取事件論元;聯合方式通過聯合學習觸發詞和論元,避免觸發詞抽取錯誤對論元抽取的影響。事件抽取在許多領域中都非常有用,例如,將提取出的事件信息存儲到知識庫中,可以為信息檢索提供有用的信息,進而進行知識推理。
現有技術方案:
中國科學院自動化研究所的專利申請“事件抽取方法、裝置、電子設備及存儲介質”(專利號:202110827424.5),提供了一種事件抽取方法,包括以下步驟:將待抽取文檔輸入至事件抽取模型,模型包括句子級特征提取層、文檔級特征提取層、特征解碼層和事件預測層;句子級特征提取層使用Transformer模型編碼待抽取文檔中每個語句,得到對應的上下文特征向量和事件元素表示向量;文檔級特征提取層接著提取特征,得到文檔編碼向量和文檔事件元素表示向量;特征解碼層分析得到角色關系表示向量、事件關系表示向量和事件到角色關系表示向量;最后在事件預測層提取多個事件并實現事件元素的分配,輸出預測結果。該方法的缺點是,在對事件的抽取中,只考慮了句子序列的特征,但是忽略了句子的句法特征,使得模型難以獲取一個句子里多個事件的相關性,沒有對不同特征賦予不同的權重信息。
北京明略昭輝科技有限公司的專利申請“因果關系抽取方法,裝置,電子設備及可讀存儲介質”(專利號:202210308591.3),提出了一種事件因果關系抽取方法,包括以下步驟:對待抽取文本進行分詞操作得到多個單位詞,并對各單位詞進行詞性標注得到各單位詞對應的詞性標識;獲取預設事件規則集,將詞性標識與預設事件規則集中的事件子規則匹配的單位詞進行組合,得到多個單位事件;獲取訓練完成的規則模型,將單位事件輸入到訓練完成的規則模型中,通過訓練完成的規則模型的輸出得到待抽取文本的因果關系抽取結果。該方法的缺點是,沒有考慮到單詞之間的依存關系,也沒有使用外部的詞匯信息,使得字符的語義性沒有得到充分利用。并且人為構造規則的方法雖然對于特定領域來說準確率比較高,但是其可移植性不高、泛化性較弱,無法廣泛用于多種領域數據。
山西大學的專利申請“一種基于多粒度實體異構圖的篇章級事件抽取方法及裝置”(專利號:202210348614.3),提出了一種篇章級事件抽取方法,包括以下步驟:使用基于句子和段落的上下文信息分別進行實體抽取,并基于一種多粒度實體選擇策略融合兩種粒度的實體集,提高了實體提取的精度;結合句子與篩選出的候選實體,構造融入多粒度實體的異構圖,并利用圖卷積網絡獲得具有篇章級上下文感知的實體和句子的向量化表示,提高了句子和實體對于事件的感知能力;最后進行事件類型和事件論元的多標簽分類,實現事件檢測和論元識別。該方法的缺點是:沒有構建詞語之間的依賴關系,對不同特征沒有計算注意力權重信息,使得重要的文本特征沒有對輸出結果起到更多的作用。
現有技術的缺點包括:
1、在對事件的抽取中,只考慮了句子序列的特征,但是忽略了句子的句法特征,使得模型難以獲取一個句子里多個事件的相關性,沒有對不同特征賦予不同的權重信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310363825.9/2.html,轉載請聲明來源鉆瓜專利網。





