[發(fā)明專利]一種中文事件觸發(fā)詞抽取方法及裝置有效
| 申請?zhí)枺?/td> | 202110647875.0 | 申請日: | 2021-06-10 |
| 公開(公告)號: | CN113468884B | 公開(公告)日: | 2023-06-16 |
| 發(fā)明(設(shè)計)人: | 楊昊;趙剛;王興芬 | 申請(專利權(quán))人: | 北京信息科技大學(xué) |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/211;G06F40/30;G06F40/216;G06N3/045;G06N3/0442 |
| 代理公司: | 北京天方智力知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11719 | 代理人: | 路遠 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 中文 事件 觸發(fā) 抽取 方法 裝置 | ||
本發(fā)明提供一種中文事件觸發(fā)詞抽取方法及裝置。所述方法包括:對輸入文本進行預(yù)處理;初始向量化;利用異構(gòu)注意力網(wǎng)絡(luò),有側(cè)重地捕捉與當(dāng)前節(jié)點同一類型鄰居節(jié)點的特征,有側(cè)重地捕捉與當(dāng)前節(jié)點不同類型鄰居節(jié)點的特征;將類型注意力網(wǎng)絡(luò)的輸出輸入到一個條件隨機場,輸出標(biāo)注序列,實現(xiàn)觸發(fā)詞的抽取。本發(fā)明利用全分詞和依存句法分析相結(jié)合,通過融入單詞的義原信息,將單詞的多個語義信息融合至字符之中,解決了觸發(fā)詞抽取任務(wù)中的歧義分詞問題及中文詞語語義歧義性的問題。本發(fā)明利用包括節(jié)點注意力網(wǎng)絡(luò)和類型注意力網(wǎng)絡(luò)的異構(gòu)圖注意力網(wǎng)絡(luò),能夠有側(cè)重地捕捉異構(gòu)圖中鄰居節(jié)點的特征,提高了中文事件觸發(fā)詞的抽取的準(zhǔn)確度。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,具體涉及一種中文事件觸發(fā)詞抽取方法及裝置。
背景技術(shù)
事件抽取作為信息抽取的一部分,在輿情分析、自動問答、知識推理等方面具有現(xiàn)實意義。事件抽取是指要求人們用人工或者自動的方法,從半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中,識別出與目標(biāo)相關(guān)的觸發(fā)詞。觸發(fā)詞作為事件的核心詞,決定著事件的類型,故事件觸發(fā)詞的抽取作為事件抽取的子任務(wù),具備深入研究的現(xiàn)實意義。現(xiàn)有中文的事件觸發(fā)詞抽取面臨著歧義分詞和詞語語義歧義兩大問題。現(xiàn)有的中文事件觸發(fā)詞抽取技術(shù)主要分為三種:一是利用傳統(tǒng)的機器學(xué)習(xí)方法,其存在問題是在特征提取時過度依賴NLP工具,并且僅能捕獲語句內(nèi)的顯示特征;二是利用CNN、RNN等神經(jīng)網(wǎng)絡(luò)及其各種改良的方法,其存在問題是依據(jù)固定分詞,不能很好地解決歧義分詞和詞語語義歧義的問題;三是利用圖卷積網(wǎng)絡(luò)、圖注意力網(wǎng)絡(luò)等圖神經(jīng)網(wǎng)絡(luò)的方法,其存在問題是多是僅利用字構(gòu)建同構(gòu)圖結(jié)構(gòu)或利用字與分詞結(jié)果構(gòu)建異構(gòu)圖結(jié)構(gòu),再利用圖卷積網(wǎng)絡(luò)或圖注意力網(wǎng)絡(luò)等方法,完成中文事件觸發(fā)詞的抽取,其并不能解決詞語語義歧義的問題。
綜上,現(xiàn)有中文觸發(fā)詞抽取技術(shù)由于特征捕獲不完全和歧義問題均在一定程度上影響了字符的表征,進而影響了中文事件觸發(fā)詞的抽取效果。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明提供一種中文事件觸發(fā)詞抽取方法及裝置。
為了實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案。
第一方面,本發(fā)明提供一種中文事件觸發(fā)詞抽取方法,包括以下步驟:
對輸入文本進行全分詞、依存句法分析,提取依存句法分析中未出現(xiàn)的單詞的所有義原;
對提取的字符、單詞、義原進行初始向量化,利用雙向長短期記憶網(wǎng)絡(luò)BiLSTM對每個句子中的字符進行訓(xùn)練,得到每個字符能夠記憶其句中前后字符特征的向量表征;
將BiLSTM的輸出輸入到節(jié)點注意力網(wǎng)絡(luò),有側(cè)重地捕捉與當(dāng)前節(jié)點同一類型鄰居節(jié)點的特征,將節(jié)點注意力網(wǎng)絡(luò)的輸出輸入到類型注意力網(wǎng)絡(luò),有側(cè)重地捕捉與當(dāng)前節(jié)點不同類型鄰居節(jié)點的特征;節(jié)點類型包括字符節(jié)點、單詞節(jié)點和義原節(jié)點;
將類型注意力網(wǎng)絡(luò)的輸出輸入到一個條件隨機場,輸出標(biāo)注序列,實現(xiàn)觸發(fā)詞的抽取。
進一步地,節(jié)點注意力網(wǎng)絡(luò)的輸出為:
eij=LeakyReLU(vτ[Wτhi,Wτhj])
式中,為節(jié)點注意力網(wǎng)絡(luò)第i個節(jié)點的輸出向量,σ、LeakyReLU為激勵函數(shù),Nτ,i表示與第i個節(jié)點即當(dāng)前節(jié)點相鄰的τ類型節(jié)點的集合,Wτ為τ類型節(jié)點的維度變換矩陣,aij為第j個節(jié)點輸入向量hj的權(quán)重,eij為第i個節(jié)點與第j個節(jié)點的相似度,vτ為τ類型節(jié)點的權(quán)重矩陣,hi為第i個節(jié)點輸入向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京信息科技大學(xué),未經(jīng)北京信息科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110647875.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





