[發明專利]一種基于領域預訓練的嵌套事件抽取方法在審
| 申請號: | 202110459415.5 | 申請日: | 2021-04-27 |
| 公開(公告)號: | CN113076468A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 張維彥;阮彤;葉琪;翟潔 | 申請(專利權)人: | 華東理工大學 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200237 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 領域 訓練 嵌套 事件 抽取 方法 | ||
本發明公開了一種基于領域預訓練的嵌套事件抽取方法。本發明包括以下步驟:步驟1:獲取領域語料并預處理,采用相鄰字凝固度方法對語料構造領域專業詞表,隨機抽文本數據進行人工標注得嵌套事件文本數據集;步驟2:利用領域語料和領域專業詞表作為輸入,預訓練領域語言模型CaseBERT,其是在通用語言模型BERT內部增加新聞類別分類預訓練任務;步驟3:定義分層抽取嵌套事件信息模版,梳理嵌套事件層次關系;步驟4:采用CaseBERT模型和預定義的嵌套事件抽取模版,對嵌套事件文本數據集進行觸發詞和事件屬性聯合抽取。本發明適用于領域性的多主體嵌套事件抽取任務,通過預訓練領域語言模型和預定義嵌套事件分層抽取模板,有效提高領域嵌套事件抽取的準確率。
技術領域
本發明屬于自然語言處理技術領域,具體來說涉及文本信息抽取技術領域,更具體地說,涉及提供了一種基于領域預訓練的嵌套事件抽取方法。
背景技術
隨著互聯網信息量爆炸式的增長,在浩如煙海的信息源中快速、準確地獲取所需信息的需求愈發迫切。事件抽取做作為信息抽取的深層次研究任務,其旨在從純文本中抽取出用戶感興趣的事件,并以結構化的形式呈現給用戶,進而供用戶查詢、分析利用,常見的重要下游應用,比如:構建知識圖譜、智能問答和信息檢索等。對文本進行事件抽取,尤其是多主體嵌套事件抽取,已成為當前文本挖掘技術領域的研究難點。
面對垂直領域文本,如新聞文本、生物醫療等領域,大量文本均存在多主體嵌套事件,對準確抽取文本信息提出了巨大挑戰。當前運用較多基于模式匹配、基于機器學習等方法對于元事件抽取基本有較高的準確率。但當文本出現多主體嵌套事件時,上述方法難以準確全面高效地抽取信息,主要難點在于:1)事件屬性分布在文本不同句子中;2)文本中多個嵌套事件之間存在事件論元屬性重疊,從而導致信息抽取準確率下降。
近年來,隨著預訓練語言模型的出現將自然語言處理帶入一個新時代,基于預訓練語言模型諸多優點:1)在大規模無監督語料上預訓練通用語言表示對下游任務效果提升明顯;2)提供了更好的模型初始化參數,使在目標任務上有更好的泛化性能和更快的收斂速度;3)能夠避免在小數據集上過擬合。但是,大多數預訓練模型都在諸如Wikipedia的通用語料中訓練,而在領域化的特定場景會受到限制。
綜上所述,本交叉領域亟需設計一種新的多主體嵌套事件抽取方法來解決上述問題。
發明內容
有鑒于此,本發明提供了一種基于預訓練模型的嵌套事件抽取方法。第一,解決將BERT直接遷移到垂直領域,在領域化的特定場景會受到限制,其性能效果會下降的問題。本發明提出一種預訓練領域語言模型的方法,以新聞案件領域為例,提高領域語言處理能力;第二,多主體嵌套事件存在屬性重疊、事件屬性分散于各個不同句子等因素造成信息抽取效果差的問題。本發明提出一套基于分層抽取嵌套事件信息模版的嵌套事件分層抽取流程。
本發明的技術路線實現形式為:首先,從領域數據庫中獲取原始領域語料,并對其進行預處理;其次,改進通用BERT模型,并利用領域語料進行預訓練,得到領域預訓練語言模型CaseBERT;再次,通過梳理多主體嵌套事件的層次關系,對嵌套事件預定義分層抽取模版;最后,通過觸發詞和事件屬性聯合抽取模型,基于CaseBERT和嵌套事件抽取模板,進行多主體嵌套事件抽取,獲得文本最終結構化信息。
本發明以新聞領域嵌套事件抽取為例,亦可用于其他領域文本的嵌套事件抽取。具體步驟為:
S1、獲取領域語料,并數據預處理,采用相鄰字凝固度方法對語料構造領域專業詞表,隨機抽小部分數據進行人工標注得嵌套事件文本數據集;
S2、利用領域語料和領域專業詞表作為輸入,預訓練領域語言模型CaseBERT,其是在通用預訓練語言模型BERT內部增加案由類別分類預訓練任務;
S3、定義分層抽取嵌套事件信息模版,梳理嵌套事件層次關系;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東理工大學,未經華東理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110459415.5/2.html,轉載請聲明來源鉆瓜專利網。





