[發(fā)明專利]一種基于混合神經(jīng)網(wǎng)絡(luò)和多級注意力機(jī)制的觸發(fā)詞識別方法在審
| 申請?zhí)枺?/td> | 202110555216.4 | 申請日: | 2021-05-20 |
| 公開(公告)號: | CN113177417A | 公開(公告)日: | 2021-07-27 |
| 發(fā)明(設(shè)計(jì))人: | 何馨宇;于博;任永功;太平;李文璇 | 申請(專利權(quán))人: | 遼寧師范大學(xué) |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 大連非凡專利事務(wù)所 21220 | 代理人: | 閃紅霞 |
| 地址: | 116000 遼寧*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 混合 神經(jīng)網(wǎng)絡(luò) 多級 注意力 機(jī)制 觸發(fā) 識別 方法 | ||
本發(fā)明公開一種基于混合神經(jīng)網(wǎng)絡(luò)和多級注意力機(jī)制的生物醫(yī)學(xué)事件觸發(fā)詞識別方法,屬于自然語言處理領(lǐng)域。首先,利用卷積神經(jīng)網(wǎng)絡(luò)和雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合,構(gòu)建了一種基于混合神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)事件觸發(fā)詞識別模型,降低了特征提取過程中過分依賴自然語言處理工具所消耗的大量人工成本,提高了句子語義準(zhǔn)確性;其次,通過詞級注意力機(jī)制加強(qiáng)句內(nèi)關(guān)鍵信息,通過句子級注意力機(jī)制加強(qiáng)要素間的相互影響,通過篇章級注意力機(jī)制加強(qiáng)句子間上下文的語義影響。實(shí)驗(yàn)結(jié)果表明,本發(fā)明有效提升了癌癥相關(guān)的生物醫(yī)學(xué)事件觸發(fā)詞的識別效率。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理領(lǐng)域,尤其是一種可有效克服長距離依賴、發(fā)掘多級全局注意力特征、訓(xùn)練難度低、網(wǎng)絡(luò)參數(shù)少、收斂速度快、識別準(zhǔn)確率高、基于混合神經(jīng)網(wǎng)絡(luò)和多級注意力機(jī)制的生物醫(yī)學(xué)事件觸發(fā)詞識別方法。
背景技術(shù)
近年來,隨著生物醫(yī)學(xué)科學(xué)的迅猛發(fā)展,生物醫(yī)學(xué)領(lǐng)域的實(shí)驗(yàn)數(shù)據(jù)和文獻(xiàn)數(shù)量呈指數(shù)級增長。即使相關(guān)研究人員消耗大量時(shí)間對檢索詞進(jìn)行仔細(xì)篩選和恰當(dāng)組合,也依然難以從大量的文獻(xiàn)中迅速獲得有用的知識。在這種情況下,生物醫(yī)學(xué)文本挖掘技術(shù)應(yīng)運(yùn)而生。生物醫(yī)學(xué)文本挖掘,又稱生物醫(yī)學(xué)自然語言處理(BioNLP),主要研究如何從大量生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)提取有用信息,從而供生物醫(yī)學(xué)研究人員查詢和研究。作為生物醫(yī)學(xué)文本挖掘的核心問題,生物醫(yī)學(xué)事件抽取旨在從非結(jié)構(gòu)化的海量生物醫(yī)學(xué)文獻(xiàn)中提取結(jié)構(gòu)化的生物醫(yī)學(xué)事件,挖掘文獻(xiàn)中所描述的生物實(shí)體、生物醫(yī)學(xué)事件之間的細(xì)粒度關(guān)系,以便節(jié)約人工查閱文獻(xiàn)的時(shí)間,為相關(guān)數(shù)據(jù)庫的構(gòu)建、疾病的診斷和預(yù)防等研究提供支持。目前,生物醫(yī)學(xué)事件抽取技術(shù)已被廣泛地應(yīng)用于系統(tǒng)生物學(xué)領(lǐng)域,為疾病的診斷、預(yù)防、治療以及新藥的研發(fā)、生命科學(xué)研究提供依據(jù),具有重要的理論價(jià)值和現(xiàn)實(shí)意義。
作為生物醫(yī)學(xué)事件提取的基礎(chǔ)步驟,生物醫(yī)學(xué)事件觸發(fā)點(diǎn)識別構(gòu)成了事件元素識別的基礎(chǔ)。如果它所識別的觸發(fā)詞有誤,那么其后續(xù)的所有工作就失去了意義。研究顯示,有超過60%的抽取錯(cuò)誤均要?dú)w因于觸發(fā)詞識別階段。因此,生物醫(yī)學(xué)事件觸發(fā)點(diǎn)識別是生物醫(yī)學(xué)事件提取的關(guān)鍵環(huán)節(jié)。
目前,觸發(fā)器識別方法大致包括四類,即基于詞典的方法、基于規(guī)則的方法、統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法。隨著近年來深度學(xué)習(xí)的不斷發(fā)展,利用深度學(xué)習(xí)技術(shù)對實(shí)驗(yàn)期望進(jìn)行預(yù)訓(xùn)練的方法越來越多。由于這些方法大多具有學(xué)習(xí)能力強(qiáng)、覆蓋范圍廣、適應(yīng)性強(qiáng)、可移植性好等優(yōu)點(diǎn),原始語義詞嵌入的預(yù)訓(xùn)練更具包容性,進(jìn)而提高了觸發(fā)器識別任務(wù)的準(zhǔn)確性。Wang等人提出了一種基于生物事件抽取任務(wù)的CNN模型,在觸發(fā)詞識別子任務(wù)上結(jié)合了單詞位置、上下文語義以及實(shí)體信息等作為特征,通過觸發(fā)詞與依存路徑樹上不同距離的結(jié)點(diǎn)構(gòu)建要素候選,進(jìn)而檢測要素關(guān)系。該方法在MLEE語料上取得了F值為77.97%的觸發(fā)詞識別率和58.31%的生物事件抽取結(jié)果。但是,CNN對于長距離上下文語義識別和保存輸入序列語義的順序上仍需進(jìn)行特殊處理。Rahul等人分別通過LSTM和GRU進(jìn)行生物事件觸發(fā)詞識別,并將實(shí)體類型信息作為特征,在MLEE語料上獲得了較好的識別性能,其基于BLSTM的觸發(fā)詞識別模型的F值為78.715,基于BGRU的觸發(fā)詞識別模型的F值達(dá)到了79.11%。Liu等人提出了一種觸發(fā)詞識別動(dòng)態(tài)記憶網(wǎng)絡(luò)TD-DMN來進(jìn)行事件抽取,將觸發(fā)詞識別模擬為問答問題,在檢測要素時(shí)將觸發(fā)詞的相關(guān)信息融合到問題模塊,進(jìn)而完成事件抽取。然而,由于句子中的不同單詞往往對整個(gè)句子的語義信息有不同的影響,上述方法均等同對待句子中的所有詞,可能會導(dǎo)致關(guān)鍵的語義信息沒有得到充分的重視。而且,隨著距離的不斷增加,單詞之間的語義信息影響也會不斷減弱。若能進(jìn)一步引入注意力機(jī)制,則有望克服這一不足。于是,He等人首先將注意力機(jī)制應(yīng)用在LSTM模型上,完成了生物事件觸發(fā)詞識別和生物事件抽取任務(wù)。通過詞級注意力機(jī)制加強(qiáng)句子內(nèi)對于分類起關(guān)鍵作用的單詞,并通過句子級注意力機(jī)制加強(qiáng)相關(guān)要素之間的相互影響,在觸發(fā)詞識別和事件抽取任務(wù)上取得了較好的性能。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于遼寧師范大學(xué),未經(jīng)遼寧師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110555216.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





