[發明專利]基于循環神經網絡的中文事件抽取方法在審
| 申請號: | 202011571592.4 | 申請日: | 2020-12-27 |
| 公開(公告)號: | CN112613305A | 公開(公告)日: | 2021-04-06 |
| 發明(設計)人: | 王嘉旭;王潔 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 循環 神經網絡 中文 事件 抽取 方法 | ||
本發明公開了基于循環神經網絡的中文事件抽取方法,本發明提出的中文事件抽取聯合模型主要有三個階段:1)詞向量編碼階段;2)特征提取階段;3)分類器訓練階段;本發明的循環神經網絡的輸入為經過bert模型編碼的動態詞向量,向量能充分獲取單詞語義信息,克服了對多義性文本表示的不足的缺點;將由bert模型編碼的詞向量輸入到雙向循環神經網絡中進行特征提取,為了豐富文本的特征向量,對句子特征進行拼接處理;考慮到觸發詞和事件元素之間的關聯,將經過特征提取的向量輸入到CRF模型中進行訓練分類;之后將經CRF分類器處理的事件檢測和事件元素識別兩個階段的四個子任務結合到一個端到端的模型,達到對事件進行聯合抽取的目的。
技術領域
本發明屬于自然語言處理與信息抽取領域,提出了一種基于循環神經網絡的中文事件抽取聯合模型。該模型可用于針對新聞資訊、客服問答等海量中文文本數據的事件抽取任務,而且能夠為事理圖譜構建、關系抽取、信息檢索、自動問答等任務提供基礎服務。
背景技術
自動內容抽取(Automatic Content Extraction,ACE)國際評測會議將事件定義為:發生在某個特定時間點或時間段,某個特定地域范圍內,由一個或者多個角色參與的一個或者多個動作組成的事情或者狀態的改變[1]。事件抽取任務的目標就是將現實世界中人們用自然語言表達出來的事件以結構化的形式表示出來。事件抽取任務分為事件檢測和事件元素識別兩個子任務,事件檢測任務是指從文本中發現事件并且確定事件的類別,事件元素識別任務是指對特定類別事件中的元素進行識別并且確定元素的角色。事件抽取任務是自然語言處理 (NLP)領域中一項至關重要的任務,在信息檢索、自動問答、自動摘要、推薦系統等方面均有廣泛應用[2]。近年來國內外學者已經針對事件抽取問題進行了一系列研究與探索,主要包括基于模式匹配、基于統計機器學習和基于深度學習的三種研究方法。
基于模式匹配的方法通常是指在一些模式的指導下對某類事件進行識別,利用模式匹配算法將待抽取的句子和提前制定好的模板進行匹配[3],從而實現事件類型的識別,應用這類方法的系統有ExDisco[4]、GenPAM[5]等。但是該方法往往依賴具體語言、具體領域及文本格式。規則模板的編制過程費時費力且容易產生錯誤,往往需要富有經驗的語言學家才能完成[6]。且抽取的模式無法涵蓋所有的事件類型,當從一種語料轉移到另一種語料時,為保證不損失性能,需要花費很多精力進行模式提取,因此可移植性較差,性價比不高。
基于傳統機器學習的方法通常是指判斷句子中的每個詞是否為最能描述某個事件發生的觸發詞,如果是,則將其歸為正例,并用一個多元分類器對其進行分類,獲得其所屬的事件類別。Ahn[7]、Grishman[8]等、Hardy[9]等、趙妍妍[10]等提出的方法都屬于傳統機器學習的方法。雖然該方法在一定程度上減少了人工干預,但是在過程中引入了大量的反例,導致正反例嚴重不平衡。且多類分類器在語料規模較小的時候存在一定的數據稀疏問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011571592.4/2.html,轉載請聲明來源鉆瓜專利網。





