[發(fā)明專利]一種融入詞表知識(shí)的中文篇章級(jí)事件抽取方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202111355005.2 | 申請(qǐng)日: | 2021-11-16 |
| 公開(公告)號(hào): | CN114036908A | 公開(公告)日: | 2022-02-11 |
| 發(fā)明(設(shè)計(jì))人: | 李成龍;謝洋洋 | 申請(qǐng)(專利權(quán))人: | 安徽大學(xué) |
| 主分類號(hào): | G06F40/169 | 分類號(hào): | G06F40/169;G06F40/151;G06F40/247;G06N3/08 |
| 代理公司: | 合肥市浩智運(yùn)專利代理事務(wù)所(普通合伙) 34124 | 代理人: | 丁瑞瑞 |
| 地址: | 230039 *** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融入 詞表 知識(shí) 中文 篇章 事件 抽取 方法 裝置 | ||
1.一種融入詞表知識(shí)的中文篇章級(jí)事件抽取方法,其特征在于,所述方法包括以下步驟:
步驟一:建立事件模板;
步驟二:采集文本并按事件模板對(duì)文本進(jìn)行標(biāo)注,確定事件觸發(fā)詞實(shí)體和事件元素實(shí)體,將標(biāo)注好的文本用json格式保存;
步驟三:讀取標(biāo)注好的文本,對(duì)文本進(jìn)行預(yù)處理并根據(jù)標(biāo)注的實(shí)體對(duì)預(yù)處理后的文本打標(biāo)簽;
步驟四:將打標(biāo)簽后的文本轉(zhuǎn)化成對(duì)應(yīng)的向量得到字符級(jí)特征;
步驟五:將打標(biāo)簽后的文本中每個(gè)字符構(gòu)造對(duì)應(yīng)的BMES集合,B代表由對(duì)應(yīng)字符為開頭的所有匹配詞,M代表由以對(duì)應(yīng)字符為中間的所有匹配詞,E代表由以對(duì)應(yīng)字符為結(jié)尾的所有匹配詞,S是由對(duì)應(yīng)字符單獨(dú)組成詞的所有匹配詞,如果一個(gè)詞集是空的,則用詞NONE來表示;對(duì)每個(gè)集合中的單詞進(jìn)行相關(guān)編碼,將其轉(zhuǎn)換為對(duì)應(yīng)的文本向量,并對(duì)每個(gè)集合中的單詞計(jì)算TF-IDF值作為每個(gè)單詞的權(quán)重,對(duì)每個(gè)集合中的單詞進(jìn)行加權(quán)相加得到詞表特征;將詞表特征與字符級(jí)特征進(jìn)行拼接融合實(shí)現(xiàn)特征提取;
步驟六:抽取文本中事件對(duì)應(yīng)的事件觸發(fā)詞實(shí)體和事件元素實(shí)體;
步驟七:事件抽取;
步驟八:將提取的特征、事件觸發(fā)詞實(shí)體、事件元素實(shí)體以及事件輸入到神經(jīng)網(wǎng)絡(luò)中通過隨機(jī)梯度下降法訓(xùn)練網(wǎng)絡(luò),訓(xùn)練好的網(wǎng)絡(luò)作為優(yōu)化的模型,利用優(yōu)化的模型進(jìn)行中文篇章級(jí)事件抽取。
2.根據(jù)權(quán)利要求1所述的一種融入詞表知識(shí)的中文篇章級(jí)事件抽取方法,其特征在于,所述事件模板為資產(chǎn)凍結(jié)事件,資產(chǎn)凍結(jié)事件包括的事件元素為被凍結(jié)方、凍結(jié)股份、凍結(jié)開始時(shí)間和凍結(jié)截止時(shí)間。
3.根據(jù)權(quán)利要求2所述的一種融入詞表知識(shí)的中文篇章級(jí)事件抽取方法,其特征在于,所述事件觸發(fā)詞包括資產(chǎn)凍結(jié)。
4.根據(jù)權(quán)利要求1所述的一種融入詞表知識(shí)的中文篇章級(jí)事件抽取方法,其特征在于,所述對(duì)文本進(jìn)行預(yù)處理包括:將文本分成測(cè)試集、訓(xùn)練集以及驗(yàn)證集,且測(cè)試集、訓(xùn)練集以及驗(yàn)證集的比例為7:2:1,將測(cè)試集、訓(xùn)練集以及驗(yàn)證集中每個(gè)文本定為包含64句話,每句話包含128個(gè)詞,從而將每個(gè)文件轉(zhuǎn)化為一個(gè)64×128維的向量,如果超出就截?cái)啵绻粔蚓屯ㄟ^補(bǔ)0填充。
5.根據(jù)權(quán)利要求4所述的一種融入詞表知識(shí)的中文篇章級(jí)事件抽取方法,其特征在于,所述根據(jù)標(biāo)注的實(shí)體對(duì)預(yù)處理后的文本打標(biāo)簽包括:經(jīng)過預(yù)處理的文本中對(duì)標(biāo)注過的實(shí)體的開頭加上標(biāo)簽B,實(shí)體結(jié)尾加上標(biāo)簽E,對(duì)不屬于標(biāo)注的實(shí)體的內(nèi)容前面打上標(biāo)簽O。
6.根據(jù)權(quán)利要求1所述的一種融入詞表知識(shí)的中文篇章級(jí)事件抽取方法,其特征在于,所述隨機(jī)梯度下降法中初始的學(xué)習(xí)率為0.0001,訓(xùn)練次數(shù)為100次,達(dá)到訓(xùn)練次數(shù)以后最終的模型收斂到最優(yōu)。
7.一種融入詞表知識(shí)的中文篇章級(jí)事件抽取裝置,其特征在于,所述裝置包括:
模板建立模塊,用于建立事件模板;
標(biāo)注模塊,用于采集文本并按事件模板對(duì)文本進(jìn)行標(biāo)注,確定事件觸發(fā)詞實(shí)體和事件元素實(shí)體,將標(biāo)注好的文本用json格式保存;
打標(biāo)簽?zāi)K,用于讀取標(biāo)注好的文本,對(duì)文本進(jìn)行預(yù)處理并根據(jù)標(biāo)注的實(shí)體對(duì)預(yù)處理后的文本打標(biāo)簽;
字符級(jí)特征提取模塊,用于將打標(biāo)簽后的文本轉(zhuǎn)化成對(duì)應(yīng)的向量得到字符級(jí)特征;
特征融合模塊,用于將打標(biāo)簽后的文本中每個(gè)字符構(gòu)造對(duì)應(yīng)的BMES集合,B代表由對(duì)應(yīng)字符為開頭的所有匹配詞,M代表由以對(duì)應(yīng)字符為中間的所有匹配詞,E代表由以對(duì)應(yīng)字符為結(jié)尾的所有匹配詞,S是由對(duì)應(yīng)字符單獨(dú)組成詞的所有匹配詞,如果一個(gè)詞集是空的,則用詞NONE來表示;對(duì)每個(gè)集合中的單詞進(jìn)行相關(guān)編碼,將其轉(zhuǎn)換為對(duì)應(yīng)的文本向量,并對(duì)每個(gè)集合中的單詞計(jì)算TF-IDF值作為每個(gè)單詞的權(quán)重,對(duì)每個(gè)集合中的單詞進(jìn)行加權(quán)相加得到詞表特征;將詞表特征與字符級(jí)特征進(jìn)行拼接融合實(shí)現(xiàn)特征提取;
實(shí)體抽取模塊,用于抽取文本中事件對(duì)應(yīng)的事件觸發(fā)詞實(shí)體和事件元素實(shí)體;
事件抽取模塊,用于事件抽取;
訓(xùn)練尋優(yōu)模塊,用于將提取的特征、事件觸發(fā)詞實(shí)體、事件元素實(shí)體以及事件輸入到神經(jīng)網(wǎng)絡(luò)中通過隨機(jī)梯度下降法訓(xùn)練網(wǎng)絡(luò),訓(xùn)練好的網(wǎng)絡(luò)作為優(yōu)化的模型,利用優(yōu)化的模型進(jìn)行中文篇章級(jí)事件抽取。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽大學(xué),未經(jīng)安徽大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111355005.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種增強(qiáng)尼龍包容鋼齒輪
- 一種增強(qiáng)尼龍包容鋼齒輪
- 融入式市場(chǎng)系統(tǒng)和方法
- 煤矸石淋濾液消融入滲土柱模擬系統(tǒng)及特征參數(shù)測(cè)定方法
- 煤矸石淋濾液消融入滲室內(nèi)土柱模擬裝置
- 將句子權(quán)重融入神經(jīng)機(jī)器翻譯的領(lǐng)域適應(yīng)方法
- 融入依存關(guān)系的神經(jīng)機(jī)器翻譯方法
- 基于虛擬現(xiàn)實(shí)及多模態(tài)信息的孤獨(dú)癥輔助干預(yù)系統(tǒng)及方法
- 一種基于生成對(duì)抗網(wǎng)絡(luò)的視頻廣告融入系統(tǒng)與方法
- 基于融入空間信息的加權(quán)伽馬混合模型的SAR影像分割方法
- 一種基于漢語言語測(cè)聽動(dòng)態(tài)詞表的漢語言語自動(dòng)測(cè)聽方法
- 一種中醫(yī)癥狀結(jié)構(gòu)化方法
- 一種突發(fā)事件數(shù)據(jù)的篩選方法及裝置
- 一種互譯多詞表達(dá)抽取方法及其裝置
- 詞表的存儲(chǔ)管理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)處理方法及相關(guān)設(shè)備
- 基于語法模式的科技詞表擴(kuò)充方法、裝置、終端、及介質(zhì)
- 一種提升動(dòng)態(tài)模型識(shí)別準(zhǔn)確率的方法和系統(tǒng)
- 詞表構(gòu)建方法、機(jī)器翻譯方法及其裝置、設(shè)備與介質(zhì)
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)





