[發明專利]事件實體聯合抽取方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202010908002.6 | 申請日: | 2020-09-02 |
| 公開(公告)號: | CN112052682A | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 李映萱;高寒冰;羅水權;劉劍;李果夫 | 申請(專利權)人: | 平安資產管理有限責任公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F16/35;G06F16/36;G06F21/64 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 程超 |
| 地址: | 200120 上海市浦東新區中國(上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 事件 實體 聯合 抽取 方法 裝置 計算機 設備 存儲 介質 | ||
本發明公開了事件實體聯合抽取方法、裝置、計算機設備及可讀存儲介質,涉及人工智能技術領域,包括獲取待處理數據,采用預測模型對所述待處理數據進行事件信息預測,獲得至少一個事件信息;根據各個所述事件信息采用提取模型對所述待處理數據進行實體識別,獲得與各個所述事件信息對應的實體信息;基于所述事件信息和與各個所述事件信息對應的實體信息獲得目標數據,通過預測模型對待處理文本進行事件預測,并基于獲得的各個事件信息采用提取模型對待處理文本進行實體識別,解決了現有技術常用實體事件聯合提取器通過將實體識別和事件提取進行串聯,獲得兩個提取結果的交集,但無法將實體和事件進行匹配的問題。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種事件實體聯合抽取方法、裝置、計算機設備及存儲介質。
背景技術
信息抽取是自然語言處理當中十分重要的領域,常用的信息抽取技術主要包含了兩個領域,實體識別和事件提取,事件提取是識別描述事件信息的文本,從中抽取出事件元素并以結構化的形式呈現出來,實體提取是指識別具有可描述意義的單詞或短語,實體與實體之間并不是相互獨立的,往往存在一定的關聯。
實體識別的典型處理方式是命名實體識別(即NER),事件提取主要采用深度神經網絡語言模型獲取句子語義,傳統的實體事件聯合提取器是將實體識別和事件提取進行串聯,獲得兩個提取結果的交集,但由于命名實體識別會識別出句子中的所有實體,事件的預測獲取的是整個句子的語義,無法將實體和事件進行匹配,特別是在一個句子中有多個事件,或是句子中有多個主體,且主體歸屬事件不同的情況,因此提取獲得的事件與實體準確率較低。
發明內容
本發明的目的是提供一種事件實體聯合抽取方法、裝置、計算機設備及可讀存儲介質,用于解決現有技術常用實體事件聯合提取器將實體識別和事件提取進行串聯,獲得兩個提取結果的交集,無法將實體和事件進行匹配的問題。
為實現上述目的,本發明提供一種事件實體聯合抽取方法,包括:
獲取待處理數據,采用預測模型對所述待處理數據進行事件信息預測,獲得至少一個事件信息;
根據各個所述事件信息采用提取模型對所述待處理數據進行實體識別,獲得與各個所述事件信息對應的實體信息;
基于所述事件信息和與各個所述事件信息對應的實體信息獲得目標數據。
進一步的,在采用預測模型對所述待處理數據進行處理前,還包括對所述預測模型和所述提取模型的訓練,所述訓練包括以下:
獲取目標訓練樣本,其中,所述訓練樣本包括多條樣本數據,每一樣本數據包括至少一個樣本事件標簽和至少一個樣本實體標簽;
獲取任一樣本數據,采用預測模型對樣本數據進行處理,獲得與所述樣本數據對應的樣本事件數據;
將所述樣本事件數與所述樣本事件標簽進行比對獲得第一比對結果;
同步基于所述樣本數據對應的樣本事件標簽采用提取模型對所述樣本數據進行實體識別,獲得各個樣本事件標記對應的樣本實體數據;
將各個樣本事件標記對應的樣本實體數據與樣本實體標簽進行比對獲得第二比對結果;
基于第一比對結果和第二比對結果調整所述預測模型和所述提取模型的損失函數,獲取另一樣本數據,直至完成訓練過程,獲得訓練好的預測模型和提取模型。
進一步的,同步基于所述樣本數據對應的樣本事件標簽采用提取模型對所述樣本數據進行實體識別,獲得各個樣本事件標簽對應的樣本實體數據,包括以下;
基于所述樣本數據獲取至少一個樣本事件標簽;
將各個所述樣本事件標簽逐個與所述樣本數據拼接獲得各個樣本事件標簽對應的樣本處理數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安資產管理有限責任公司,未經平安資產管理有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010908002.6/2.html,轉載請聲明來源鉆瓜專利網。





