[發(fā)明專利]一種文本事件元素提取方法在審
| 申請?zhí)枺?/td> | 202011510822.6 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112541341A | 公開(公告)日: | 2021-03-23 |
| 發(fā)明(設(shè)計)人: | 蘇華權(quán);周昉昉;廖鵬;蔡雄;易仕敏;彭澤武;楊秋勇 | 申請(專利權(quán))人: | 廣東電網(wǎng)有限責(zé)任公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/30 |
| 代理公司: | 北京世譽鑫誠專利代理有限公司 11368 | 代理人: | 任欣生 |
| 地址: | 510000 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 事件 元素 提取 方法 | ||
本發(fā)明公開的文本事件提取方法,涉及計算機技術(shù)領(lǐng)域,過將文本輸入訓(xùn)練過的第一序列標注BERT模型,得到多個觸發(fā)詞,將多個觸發(fā)詞及多個觸發(fā)詞所在的文本輸入訓(xùn)練過的第二序列標注BERT模型,得到多個觸發(fā)詞對應(yīng)的事件元素,生成事件元素集合,提高了適用性及事件提取的準確率。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,具體涉及一種文本事件元素提取方法。
背景技術(shù)
事件元素提取是自然語言處理領(lǐng)域的基礎(chǔ)任務(wù)之一,也是信息提取任務(wù)中一個重要的子任務(wù)。事件元素提取意在提取文本中最主要的事件元素,具體的主要工作是從一段文本中識別出發(fā)生的事件元素以及事件元素中的各個元素。例如提取一個文本中的觸發(fā)詞和事件元素,事件元素包括事件主體、事件客體、時間和地點等。
現(xiàn)有的事件元素提取方案主要是使用自定義觸發(fā)詞并基于機器學(xué)習(xí)的方式提取事件元素,將事件元素提取過程轉(zhuǎn)換為分類問題,該方案需要使用大規(guī)模的標注語料,而且由于受到觸發(fā)詞的限制,當(dāng)所使用的測試語料和訓(xùn)練語料來源相同時,系統(tǒng)的效果往往較高,但該方案不適用于來源不同的語料,系統(tǒng)的表現(xiàn)就會大打折扣,導(dǎo)致事件元素提取的準確率不高。
發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)的不足,本發(fā)明實施例提供了一種文本事件元素提取方法,該方法包括以下步驟:
將文本輸入訓(xùn)練過的第一序列標注BERT模型,得到多個觸發(fā)詞;
將所述多個觸發(fā)詞及所述多個觸發(fā)詞所在的文本輸入訓(xùn)練過的第二序列標注BERT模型,得到所述多個觸發(fā)詞對應(yīng)的事件元素,生成事件元素集合,其中,所述事件元素包括事件主體、事件客體、時間及地點。
優(yōu)選地,在生成事件元素集合之后,所述方法還包括:
利用語言技術(shù)平臺ltp模型,得到所述觸發(fā)詞與所述各個事件元素之間的句法依存關(guān)系;
根據(jù)所述句法依存關(guān)系,分別判斷所述各個事件元素是否正確。
優(yōu)選地,根據(jù)所述句法依存關(guān)系,分別判斷所述各個事件元素是否正確包括:
當(dāng)所述句法依存關(guān)系為主謂關(guān)系的主語,通過人工判斷所述事件元素集合中相應(yīng)的事件主體在所述文本中是否真的為事件主體,如果不是,則過濾所述事件元素。
優(yōu)選地,根據(jù)所述句法依存關(guān)系,分別判斷所述各個事件元素是否正確還包括:
當(dāng)所述句法依存關(guān)系為動賓關(guān)系的主語,通過人工判斷所述事件元素集合中相應(yīng)的事件客體在所述文本中是否真的為事件客體,如果不是,則過濾所述事件元素。
優(yōu)選地,所述序列標注BERT模型的訓(xùn)練過程包括:
將攜帶觸發(fā)詞標簽的多個句子級文本作為訓(xùn)練數(shù)據(jù)輸入序列標注BERT模型,對所述序列標注BERT模型進行訓(xùn)練,得到訓(xùn)練過的第一序列標注BERT模型。
優(yōu)選地,所述第二序列標注BERT模型的訓(xùn)練過程包括:
將條件隨機場CRF模型的CRF層添加至訓(xùn)練過的序列標注BERT模型,得到訓(xùn)練過的第二序列標注BERT模型。
優(yōu)選地,所述序列標注BERT模型的訓(xùn)練過程包括:
將攜帶事件元素標簽的多個句子級文本作為訓(xùn)練數(shù)據(jù)輸入序列標注BERT模型,對所述序列標注BERT模型進行訓(xùn)練,得到訓(xùn)練過的第二序列標注BERT模型。
本發(fā)明實施例提供的文本事件元素提取方法,具有以下有益效果:
通過訓(xùn)練過的第一序列標注BERT模型預(yù)測觸發(fā)詞,通過訓(xùn)練過的第二序列標注BERT模型預(yù)測事件元素,適用于各種來源的語料,事件元素提取的準確率較高。
具體實施方式
以下結(jié)合具體實施例對本發(fā)明作具體的介紹。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東電網(wǎng)有限責(zé)任公司,未經(jīng)廣東電網(wǎng)有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011510822.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





