[發(fā)明專利]一種融入詞表知識(shí)的中文篇章級(jí)事件抽取方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202111355005.2 | 申請(qǐng)日: | 2021-11-16 |
| 公開(公告)號(hào): | CN114036908A | 公開(公告)日: | 2022-02-11 |
| 發(fā)明(設(shè)計(jì))人: | 李成龍;謝洋洋 | 申請(qǐng)(專利權(quán))人: | 安徽大學(xué) |
| 主分類號(hào): | G06F40/169 | 分類號(hào): | G06F40/169;G06F40/151;G06F40/247;G06N3/08 |
| 代理公司: | 合肥市浩智運(yùn)專利代理事務(wù)所(普通合伙) 34124 | 代理人: | 丁瑞瑞 |
| 地址: | 230039 *** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融入 詞表 知識(shí) 中文 篇章 事件 抽取 方法 裝置 | ||
本發(fā)明公開了一種融入詞表知識(shí)的中文篇章級(jí)事件抽取方法及裝置,所述方法包括:建立事件模板;采集文本并按事件模板對(duì)文本進(jìn)行標(biāo)注;讀取標(biāo)注好的文本,對(duì)文本進(jìn)行預(yù)處理并根據(jù)標(biāo)注的實(shí)體對(duì)預(yù)處理后的文本打標(biāo)簽;將打標(biāo)簽后的文本轉(zhuǎn)化成對(duì)應(yīng)的向量得到字符級(jí)特征;將打標(biāo)簽后的文本中每個(gè)字符構(gòu)造對(duì)應(yīng)的BMES集合,對(duì)每個(gè)集合中的單詞進(jìn)行加權(quán)相加得到詞表特征;將詞表特征與字符級(jí)特征進(jìn)行拼接融合實(shí)現(xiàn)特征提取;抽取文本中事件對(duì)應(yīng)的事件觸發(fā)詞實(shí)體和事件元素實(shí)體;事件抽取;通過隨機(jī)梯度下降法訓(xùn)練網(wǎng)絡(luò);本發(fā)明的優(yōu)點(diǎn)在于:融合詞表信息,提高事件抽取精度。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)械學(xué)習(xí)領(lǐng)域,更具體涉及一種融入詞表知識(shí)的中文篇章級(jí)事件抽取方法及裝置。
背景技術(shù)
事件抽取是信息抽取的一個(gè)重要子領(lǐng)域,其主要目標(biāo)是研究如何將非結(jié)構(gòu)化文本中包含的事件信息以結(jié)構(gòu)化的形式呈現(xiàn)。事件抽取是自然語言處理中的一項(xiàng)基本任務(wù),其抽取的有價(jià)值的結(jié)構(gòu)化事件信息,是現(xiàn)有知識(shí)資源的重要補(bǔ)充,被作為上游任務(wù)廣泛服務(wù)于知識(shí)圖譜的構(gòu)建、文本摘要和信息檢索等下游任務(wù)。
近年來隨著文本數(shù)字化的蓬勃發(fā)展,網(wǎng)絡(luò)上積攢了大量非結(jié)構(gòu)化的文本信息,如何從這些非結(jié)構(gòu)化的文本中抽取出結(jié)構(gòu)化的信息成為一個(gè)熱門研究方向。事件抽取主要研究的是如何從非結(jié)構(gòu)化的文本中抽取結(jié)構(gòu)化的信息,所以事件抽取任務(wù)也成為一個(gè)熱門研究課題。隨著深度神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,篇章級(jí)事件抽取任務(wù)也取得了重大進(jìn)展。但是由于中文自身存在的一些挑戰(zhàn)因素的影響,包括文本歧義和分詞錯(cuò)誤等,該任務(wù)遠(yuǎn)未解決。
篇章級(jí)事件抽取顧名思義其處理的文本粒度是基于篇章級(jí)別的,一般的處理流程可以歸納為以下幾部分:1)文本映射:通過現(xiàn)有的一些文本轉(zhuǎn)向量方法將文本映射為文本向量,為接下來的相關(guān)任務(wù)服務(wù);2)實(shí)體識(shí)別:通過命名實(shí)體識(shí)別的方法抽取出事件觸發(fā)詞實(shí)體和事件元素實(shí)體;3)事件抽取:通過使用事件觸發(fā)詞實(shí)體相關(guān)信息進(jìn)行事件識(shí)別,從而確定事件類型,接下來對(duì)事件元素實(shí)體進(jìn)行事件元素分類,從而將事件元素和對(duì)應(yīng)的事件元素角色一一對(duì)應(yīng)。
在篇章級(jí)事件抽取處理過程中,實(shí)體識(shí)別在事件抽取中扮演著重要的作用,其抽取的事件觸發(fā)詞實(shí)體和事件元素實(shí)體的結(jié)果對(duì)后續(xù)任務(wù)有著重要影響。現(xiàn)有的篇章級(jí)事件抽取實(shí)體識(shí)別子任務(wù),采用基于字符級(jí)別的實(shí)體識(shí)別模型,該模型將實(shí)體識(shí)別任務(wù)作為字符級(jí)別序列標(biāo)注任務(wù),例如中國(guó)專利公開號(hào)CN112231447A,公開的一種中文文檔事件抽取的方法和系統(tǒng),其就是基于字符級(jí)別的特征提取,盡管其已經(jīng)取得了良好的性能,但是,這些算法忽略了詞級(jí)別的信息,這些信息對(duì)于文本理解有著非常重要的輔助作用,忽略詞級(jí)別信息將導(dǎo)致中文篇章級(jí)事件抽取的精度不高。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于現(xiàn)有技術(shù)中文篇章級(jí)事件抽取方法忽略詞級(jí)別的信息,導(dǎo)致精度不高的問題。
本發(fā)明通過以下技術(shù)手段實(shí)現(xiàn)解決上述技術(shù)問題的:一種融入詞表知識(shí)的中文篇章級(jí)事件抽取方法,所述方法包括以下步驟:
步驟一:建立事件模板;
步驟二:采集文本并按事件模板對(duì)文本進(jìn)行標(biāo)注,確定事件觸發(fā)詞實(shí)體和事件元素實(shí)體,將標(biāo)注好的文本用json格式保存;
步驟三:讀取標(biāo)注好的文本,對(duì)文本進(jìn)行預(yù)處理并根據(jù)標(biāo)注的實(shí)體對(duì)預(yù)處理后的文本打標(biāo)簽;
步驟四:將打標(biāo)簽后的文本轉(zhuǎn)化成對(duì)應(yīng)的向量得到字符級(jí)特征;
步驟五:將打標(biāo)簽后的文本中每個(gè)字符構(gòu)造對(duì)應(yīng)的BMES集合,B代表由對(duì)應(yīng)字符為開頭的所有匹配詞,M代表由以對(duì)應(yīng)字符為中間的所有匹配詞,E代表由以對(duì)應(yīng)字符為結(jié)尾的所有匹配詞,S是由對(duì)應(yīng)字符單獨(dú)組成詞的所有匹配詞,如果一個(gè)詞集是空的,則用詞NONE來表示;對(duì)每個(gè)集合中的單詞進(jìn)行相關(guān)編碼,將其轉(zhuǎn)換為對(duì)應(yīng)的文本向量,并對(duì)每個(gè)集合中的單詞計(jì)算TF-IDF值作為每個(gè)單詞的權(quán)重,對(duì)每個(gè)集合中的單詞進(jìn)行加權(quán)相加得到詞表特征;將詞表特征與字符級(jí)特征進(jìn)行拼接融合實(shí)現(xiàn)特征提取;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽大學(xué),未經(jīng)安徽大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111355005.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種增強(qiáng)尼龍包容鋼齒輪
- 一種增強(qiáng)尼龍包容鋼齒輪
- 融入式市場(chǎng)系統(tǒng)和方法
- 煤矸石淋濾液消融入滲土柱模擬系統(tǒng)及特征參數(shù)測(cè)定方法
- 煤矸石淋濾液消融入滲室內(nèi)土柱模擬裝置
- 將句子權(quán)重融入神經(jīng)機(jī)器翻譯的領(lǐng)域適應(yīng)方法
- 融入依存關(guān)系的神經(jīng)機(jī)器翻譯方法
- 基于虛擬現(xiàn)實(shí)及多模態(tài)信息的孤獨(dú)癥輔助干預(yù)系統(tǒng)及方法
- 一種基于生成對(duì)抗網(wǎng)絡(luò)的視頻廣告融入系統(tǒng)與方法
- 基于融入空間信息的加權(quán)伽馬混合模型的SAR影像分割方法
- 一種基于漢語言語測(cè)聽動(dòng)態(tài)詞表的漢語言語自動(dòng)測(cè)聽方法
- 一種中醫(yī)癥狀結(jié)構(gòu)化方法
- 一種突發(fā)事件數(shù)據(jù)的篩選方法及裝置
- 一種互譯多詞表達(dá)抽取方法及其裝置
- 詞表的存儲(chǔ)管理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)處理方法及相關(guān)設(shè)備
- 基于語法模式的科技詞表擴(kuò)充方法、裝置、終端、及介質(zhì)
- 一種提升動(dòng)態(tài)模型識(shí)別準(zhǔn)確率的方法和系統(tǒng)
- 詞表構(gòu)建方法、機(jī)器翻譯方法及其裝置、設(shè)備與介質(zhì)
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)





