[發(fā)明專(zhuān)利]基于注意力機(jī)制的事件抽取方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202011301062.8 | 申請(qǐng)日: | 2020-11-19 |
| 公開(kāi)(公告)號(hào): | CN112307761A | 公開(kāi)(公告)日: | 2021-02-02 |
| 發(fā)明(設(shè)計(jì))人: | 李明玉;劉方然;徐常亮;賀大為 | 申請(qǐng)(專(zhuān)利權(quán))人: | 新華智云科技有限公司;新華通訊社新媒體中心 |
| 主分類(lèi)號(hào): | G06F40/289 | 分類(lèi)號(hào): | G06F40/289;G06F40/216;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 杭州裕陽(yáng)聯(lián)合專(zhuān)利代理有限公司 33289 | 代理人: | 田金霞 |
| 地址: | 310012 浙江省杭州市*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 注意力 機(jī)制 事件 抽取 方法 系統(tǒng) | ||
本發(fā)明公開(kāi)一種基于注意力機(jī)制的事件抽取方法及系統(tǒng),其中抽取方法包括以下步驟:獲取待處理文本及其事件類(lèi)型,提取所述待處理文本中各字的向量,獲得文本向量數(shù)據(jù),提取所述事件類(lèi)型中各字的向量,生成事件類(lèi)型向量數(shù)據(jù);將所述文本向量數(shù)據(jù)和所述事件類(lèi)型向量數(shù)據(jù)輸入預(yù)先構(gòu)建的抽取詞預(yù)測(cè)模型,獲得所述待處理文本中每個(gè)字所對(duì)應(yīng)的標(biāo)簽所形成的標(biāo)簽序列;基于所述標(biāo)簽序列對(duì)所述待處理文本進(jìn)行事件抽取,獲得相應(yīng)的事件觸發(fā)詞和事件論元。本發(fā)明中通過(guò)引入事件類(lèi)型,結(jié)合事件類(lèi)型對(duì)應(yīng)的特征數(shù)據(jù)對(duì)事件觸發(fā)詞和事件論元進(jìn)行聯(lián)合抽取,有效提升事件抽取的準(zhǔn)召率。
技術(shù)領(lǐng)域
本發(fā)明涉及信息抽取領(lǐng)域,尤其涉及一種基于注意力機(jī)制的事件抽取方法及系統(tǒng)。
背景技術(shù)
事件作為信息的一種表現(xiàn)形式,其定義為特定的人及物在特定的時(shí)間特定的地點(diǎn)相互作用的事實(shí),其組成元素包含觸發(fā)詞、事件類(lèi)型、論元以及論元角色;事件抽取的目標(biāo)即自動(dòng)化地從非結(jié)構(gòu)化的信息中完成上述信息的獲取,并結(jié)構(gòu)化后進(jìn)行展示。事件抽取是信息抽取領(lǐng)域中一項(xiàng)重要且具有挑戰(zhàn)性的任務(wù),其可以為知識(shí)庫(kù)構(gòu)建,問(wèn)答以及語(yǔ)言理解任務(wù)提供有效的結(jié)構(gòu)化信息。
現(xiàn)有的事件抽取方法大多采用事件觸發(fā)詞和事件論元分開(kāi)抽取的pipeline方式,導(dǎo)致兩個(gè)子任務(wù)錯(cuò)誤率傳播,同時(shí)事件觸發(fā)詞特征不能作用到下游任務(wù),進(jìn)而導(dǎo)致準(zhǔn)召率較低。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)中的缺點(diǎn),提供了一種基于注意力機(jī)制的事件抽取方法及系統(tǒng),通過(guò)引入事件類(lèi)型,聯(lián)合抽取待處理文本在該事件類(lèi)型下的事件觸發(fā)詞和事件論元,從而有效提高準(zhǔn)召性。
為了解決上述技術(shù)問(wèn)題,本發(fā)明通過(guò)下述技術(shù)方案得以解決:
一種基于注意力機(jī)制的事件抽取方法,包括以下步驟:
將事件觸發(fā)詞和事件論元作為抽取詞,收集樣本文本及其事件類(lèi)型,還為所述樣本文本中各抽取詞所對(duì)應(yīng)的每個(gè)字標(biāo)注樣本標(biāo)簽;
提取所述樣本文本中每個(gè)字的向量,獲得樣本文本向量,提取所述事件類(lèi)型中每個(gè)字的向量,獲得樣本類(lèi)型向量;
基于所述樣本文本向量、所述樣本類(lèi)型向量和所述樣本標(biāo)簽訓(xùn)練獲得抽取詞預(yù)測(cè)模型;
獲取待處理文本及其事件類(lèi)型,提取所述待處理文本中各字的向量,獲得文本向量數(shù)據(jù),提取所述事件類(lèi)型中各字的向量,生成事件類(lèi)型向量數(shù)據(jù);
將所述文本向量數(shù)據(jù)和所述事件類(lèi)型向量數(shù)據(jù)輸入所述抽取詞預(yù)測(cè)模型,獲得所述待處理文本中每個(gè)字所對(duì)應(yīng)的標(biāo)簽所形成的標(biāo)簽序列;
基于所述標(biāo)簽序列對(duì)所述待處理文本進(jìn)行事件抽取,獲得相應(yīng)的事件觸發(fā)詞和事件論元。
作為一種可實(shí)施方式:
所述標(biāo)簽用于指示所對(duì)應(yīng)的字是否屬于抽取詞,以及當(dāng)其屬于抽取詞時(shí),所述字在抽取詞中的中的位置和所述抽取詞的類(lèi)別。
作為一種可實(shí)施方式,所述抽取詞預(yù)測(cè)模型包括:
第一表征層,用于對(duì)所述文本向量數(shù)據(jù)進(jìn)行計(jì)算,生成文本序列表征;
第二表征層,用于對(duì)所述事件類(lèi)型向量數(shù)據(jù)進(jìn)行計(jì)算,生成事件類(lèi)型表征;
注意力層,用于基于注意力機(jī)制,根據(jù)所述事件類(lèi)型表征和所述文本序列表征生成注意力文本序列表征;
特征拼接層,用于將所述文本序列表征和所述注意力文本序列表征進(jìn)行逐字拼接,生成融合文本序列表征;
全連接層,用于對(duì)所述融合文本序列表征進(jìn)行全連接處理,獲得對(duì)應(yīng)字屬于各類(lèi)別的標(biāo)簽的概率,生成標(biāo)簽矩陣;
CRF層,基于條件隨機(jī)場(chǎng)對(duì)所述標(biāo)簽矩陣進(jìn)行解碼,獲得各字的標(biāo)簽,生成相應(yīng)的識(shí)別結(jié)果序列。
作為一種可實(shí)施方式:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于新華智云科技有限公司;新華通訊社新媒體中心,未經(jīng)新華智云科技有限公司;新華通訊社新媒體中心許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011301062.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 基于粒子濾波視覺(jué)注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置
- 一種機(jī)制蛋的制造方法
- 手機(jī)制式的校準(zhǔn)方法、系統(tǒng)及手機(jī)檢測(cè)設(shè)備
- 一種考慮激勵(lì)機(jī)制電量電價(jià)彈性矩陣的耗電量估測(cè)方法
- 選擇區(qū)塊鏈共識(shí)機(jī)制的方法、裝置以及共識(shí)節(jié)點(diǎn)
- 一種復(fù)合改性機(jī)制砂及其制備方法
- 一種存儲(chǔ)設(shè)備糾錯(cuò)方法及糾錯(cuò)裝置
- 區(qū)塊鏈中共識(shí)機(jī)制的處理方法、裝置和電子設(shè)備
- 一種建筑用機(jī)制砂整形裝置
- 通信方法、通信裝置及存儲(chǔ)介質(zhì)
- 一種網(wǎng)絡(luò)預(yù)約出租車(chē)市場(chǎng)準(zhǔn)入機(jī)制的優(yōu)化方法及系統(tǒng)
- 一種事件通訊裝置及方法
- 動(dòng)態(tài)權(quán)重事件處理系統(tǒng)和方法
- 攻擊檢測(cè)裝置和攻擊檢測(cè)方法
- 基于Unity的事件管理方法及系統(tǒng)
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 熱點(diǎn)事件確定方法及裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種樹(shù)狀模型中節(jié)點(diǎn)的連接方法及其模型、計(jì)算機(jī)裝置和可讀存儲(chǔ)介質(zhì)
- 一種事件處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





