[發(fā)明專利]融合字詞特征與深度學(xué)習(xí)的事件聯(lián)合抽取方法有效
| 申請?zhí)枺?/td> | 202110380536.0 | 申請日: | 2021-04-09 |
| 公開(公告)號: | CN113190602B | 公開(公告)日: | 2022-03-25 |
| 發(fā)明(設(shè)計)人: | 強(qiáng)保華;陳鵬;王玉峰;彭博;李寶蓮;陳金勇 | 申請(專利權(quán))人: | 桂林電子科技大學(xué);中國電子科技集團(tuán)公司第五十四研究所 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 桂林文必達(dá)專利代理事務(wù)所(特殊普通合伙) 45134 | 代理人: | 白洪 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 融合 字詞 特征 深度 學(xué)習(xí) 事件 聯(lián)合 抽取 方法 | ||
本發(fā)明公開了一種融合字詞特征與深度學(xué)習(xí)的事件聯(lián)合抽取方法,所述方法把事件類型和事件元素當(dāng)作一個聯(lián)合標(biāo)簽進(jìn)行標(biāo)注,減少了流水線誤差。通過延拓MacBERT解決文本按字符切分過長無法全部放入預(yù)訓(xùn)練模型提取特征的問題,再結(jié)合字符和單詞的特征,動態(tài)地捕獲輸入序列任意字符和單詞之間的依賴關(guān)系,更加充分獲取文本的語義信息和字、詞特征;在模型訓(xùn)練過程中加入擾動去干擾CRF解碼,通過對抗訓(xùn)練的方式提高模型的泛化性和健壯性。從減少流水線誤差、獲取文本更全面的語義信息和加入對抗訓(xùn)練提高模型泛化性三個方面提高事件抽取的準(zhǔn)確率和召回率。
技術(shù)領(lǐng)域
本發(fā)明涉及事件抽取領(lǐng)域,具體涉及一種融合字詞特征與深度學(xué)習(xí)的事件聯(lián)合抽取方法。
背景技術(shù)
信息抽取的任務(wù)包括實體識別與抽取、實體消解、關(guān)系抽取和事件抽取等,信息為特定的人、物在特定時間與特定地點相互作用的客觀事實,事件抽取是從非結(jié)構(gòu)化信息中自動抽取用戶感興趣的事件,以結(jié)構(gòu)化的方式存儲在數(shù)據(jù)庫中供用戶查看。
事件抽取包括識別事件類型和識別事件元素二部分,傳統(tǒng)的事件抽取,通常采用先識別觸發(fā)詞再識別事件類型最后識別事件元素這樣流水線的工作方式,這種工作方式雖然較為靈活但是避免不了流水線的誤差。使用流水線的工作方式,單純地結(jié)合字符和單詞兩種粒度的信息訓(xùn)練事件抽取模型,缺失了很多特征維度信息,對某些事件類型和事件元素的識別存在著一定的困難。
事件抽取通常在一個文本中會有多個事件元素和多個事件類型,一個事件元素有可能屬于多個事件類型,一個事件類型可能擁有多個事件元素,即多對多的形態(tài),并且這些元素可能會分布在多個句子中,這些特性是導(dǎo)致事件抽取困難的重要原因,如何充分有效地利用文本特征以提高事件抽取模型的泛化性和健壯性,仍然是當(dāng)前需要解決的問題。
發(fā)明內(nèi)容
本發(fā)明針對事件抽取領(lǐng)域現(xiàn)存的問題,在BiLSTM模型的基礎(chǔ)上,把事件類型和事件元素當(dāng)作一個聯(lián)合標(biāo)簽進(jìn)行標(biāo)注,減少流水線誤差;融入字信息以及字詞融合信息,并且使用延拓后的MacBERT模型預(yù)訓(xùn)練字向量和詞向量,更好地解決字符和單詞多語義向量表示問題及字符切分文本過長語義學(xué)習(xí)不全問題;在模型訓(xùn)練過程中注入擾動,通過對抗訓(xùn)練方式提高模型的泛化性和健壯性。
為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:
S1:對待處理的文本進(jìn)行預(yù)處理。
S2:對MacBERT的絕對位置編碼進(jìn)行延拓。
S3:利用預(yù)訓(xùn)練模型和詞嵌入模型,結(jié)合預(yù)處理后文本的字符特征信息、分詞特征信息,生成文本的字符向量序列和詞向量序列。
S4:將文本的字符向量序列進(jìn)行編碼,生成字符隱狀態(tài)向量。
S5:將文本的詞向量輸入到卷積神經(jīng)網(wǎng)絡(luò),生成字詞綜合向量序列,對字詞綜合向量序列進(jìn)行編碼,字詞綜合向量序列輸入到一個獨立的循環(huán)神經(jīng)網(wǎng)絡(luò),捕獲全局特征,生成字詞綜合隱狀態(tài)序列的向量。
S6:將所述字符隱狀態(tài)向量、字詞綜合隱狀態(tài)向量進(jìn)行合并,得到全局特征隱狀態(tài)向量。
S7:將所述全局特征隱狀態(tài)向量,輸入到基于梯度上升的對抗神經(jīng)網(wǎng)絡(luò)層進(jìn)行擾動,得到擾動后字詞特征隱狀態(tài)向量。
S8:把所述擾動后字詞特征隱狀態(tài)向量和所述文本的字符向量序列輸入到 CRF模型中進(jìn)行解碼,標(biāo)注出所述文本特征向量序列中的事件元素及該元素的事件類型,生成對應(yīng)的事件標(biāo)簽序列。
所述步驟S1中,對文本的預(yù)處理方式為:對文本采取BIO的標(biāo)注方式,把事件類型和事件元素當(dāng)作一個聯(lián)合標(biāo)簽進(jìn)行標(biāo)注,通過從左往右和從右往左二種序列標(biāo)注方法進(jìn)行標(biāo)注,把二個標(biāo)注結(jié)果求并集當(dāng)作最終標(biāo)注結(jié)果。將標(biāo)注結(jié)果文本以一個字符為單位,分割為字符集合;將待處理的文本利用jieba開源中文分詞工具將句子分詞,生成詞匯集合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于桂林電子科技大學(xué);中國電子科技集團(tuán)公司第五十四研究所,未經(jīng)桂林電子科技大學(xué);中國電子科技集團(tuán)公司第五十四研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110380536.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種分選機(jī)
- 下一篇:一種新型的細(xì)菌裂解的方法





