[發明專利]一種基于領域預訓練的嵌套事件抽取方法在審
| 申請號: | 202110459415.5 | 申請日: | 2021-04-27 |
| 公開(公告)號: | CN113076468A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 張維彥;阮彤;葉琪;翟潔 | 申請(專利權)人: | 華東理工大學 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200237 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 領域 訓練 嵌套 事件 抽取 方法 | ||
1.一種基于領域預訓練的嵌套事件抽取方法,其特征在于包括以下步驟:
S1、獲取領域語料,并數據預處理,采用相鄰字凝固度方法對語料構造領域專業詞表,隨機抽不少于7000條文本數據進行人工標注得嵌套事件文本數據集A;
S2、利用領域語料和領域專業詞表作為輸入,預訓練領域語言模型CaseBERT,其是在通用預訓練語言模型BERT內部增加新聞類別分類預訓練任務;
S3、定義分層抽取嵌套事件信息模版,梳理嵌套事件層次關系;
S4、采用CaseBERT模型和預定義的嵌套事件抽取模版,對嵌套事件文本數據集A進行觸發詞和事件屬性聯合抽取。
2.根據權利要求1所述的一種基于領域預訓練的嵌套事件抽取方法,其特征在于,所述的步驟S1具體包括:
S11、從領域數據庫中抽取原始領域語料,原始領域語料包括:領域文本及其對應的文本類別;
S12、設定一個最小文本長度80,篩選原始領域語料,過濾掉可能存在的單事件短文本;
S13、通過正則手段刪除亂碼文本與重復文本,得到條長度不小于80字的領域語料;
S14、利用相鄰字凝固度對抽取的領域語料構建公安領域專業詞表;
S15、隨機抽不少于7000條文本數據,進行人工標注,構造有監督信號的嵌套事件文本數據集A。
3.根據權利要求1所述的一種基于領域預訓練的嵌套事件抽取方法,其特征在于,所述的步驟S2具體包括:
S21、在通用BERT模型的基礎上,在MLM預訓練任務中融入了新聞類別分類任務,輸入模型前在嵌套事件文本數據集A的首部加上特殊字符“[CLS]”,尾部加上特殊字符“[SEP]”,使用“[CLS]”處的向量作為類別信息的特征向量,輸出最終的新聞類別;
S22、利用領域語料和領域專業詞表作為輸入來預訓練基于新聞案件領域特點改進的BERT語言模型;
S23、搭建得到新聞案件領域預訓練語言模型CaseBERT,并得到訓練好的模型參數。
4.根據權利要求1所述的一種基于領域預訓練的嵌套事件抽取方法,其特征在于,所述的步驟S3具體包括:
S31、對新聞文本中的多主體嵌套事件,定義各事件的重要性,并按重要性排序;
S32、設置新聞文本中每類事件的觸發詞和對應觸發詞的事件屬性;
S33、基于預定義多嵌套事件抽取模板所要結構化的信息,用嵌套事件文本信息按事件重要性分層進行對應的槽填充。
5.根據權利要求4所述的一種基于領域預訓練的嵌套事件抽取方法步驟S3,其特征在于,所述的步驟S33,模板可基于事件數量擴充,并且面對不同特點的文本可自定義設計嵌套事件信息抽取模板。
6.根據權利要求1所述的一種基于領域預訓練的嵌套事件抽取方法,其特征在于,所述的步驟S4具體包括:
S41、事件觸發詞抽取模型用于抽取文本的所有事件觸發詞,模型結構為CaseBERT疊加開始位置與結束位置的指針網絡,使用圓形損失函數對其進行優化,圓形損失函數:
S42、事件屬性抽取模型用于抽取每個觸發詞對應的事件屬性信息,其輸入為文本以及觸發詞在文本中的位置,其結構為CaseBERT配合條件標準化層,疊加開始位置與結束位置的指針網絡,使用所述的圓形損失函數對其進行優化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東理工大學,未經華東理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110459415.5/1.html,轉載請聲明來源鉆瓜專利網。





