[發明專利]融入結構化要素識別的生物醫學事件抽取方法有效
| 申請號: | 201710933832.2 | 申請日: | 2017-10-10 |
| 公開(公告)號: | CN107818141B | 公開(公告)日: | 2020-07-14 |
| 發明(設計)人: | 李麗雙;錢爽;劉陽 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪;侯明遠 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融入 結構 要素 識別 生物醫學 事件 抽取 方法 | ||
本發明提供了一種融入結構化要素識別的生物醫學事件抽取方法,屬于生物醫學信息抽取技術領域。生物醫學事件抽取方法如下:基于PA在線學習算法分類的觸發詞識別、基于Viterbi算法和PA在線學習算法的結構化要素識別以及基于雙分解原理的聯合事件抽取方法。使用本發明可以對大量的生物醫學文獻進行觸發詞識別、要素識別和雙分解操作來抽取生物醫學事件;本發明加入了詞向量和豐富而且有效的特征,提高了觸發詞和要素識別性能;使用結構化要素識別,提高了復雜事件抽取的精度;使用聯合事件抽取系統,解決分階段系統的級聯錯誤。
技術領域
本發明屬于信息抽取技術領域,涉及一種對生物醫學文獻進行生物醫學事件抽取的方法,具體是指基于PA在線學習算法的觸發詞識別、基于Viterbi算法和PA在線學習算法的結構化要素識別以及基于雙分解原理的聯合事件抽取。
背景技術
生物醫學事件由事件觸發詞和要素兩部分組成,事件觸發詞往往是動詞或者動名詞,要素通常是生物醫學實體或者是嵌套的事件。主流的生物醫學事件抽取方法包括觸發詞識別、要素識別以及后處理三個子過程。觸發詞和要素的識別過程通常被視為分類問題,這樣就可以使用傳統的規則方法或者機器學習方法去完成。識別的觸發詞結果和要素結果由基于規則的后處理方法或者機器學習的方法來得到符合生物醫學事件約束的結構組合。
生物醫學事件的觸發詞即該事件所表示的動作,觸發詞的類型即事件類型。目前,觸發詞識別主要使用基于詞典、基于規則、基于統計機器學習的方法,使用最廣泛的是基于統計機器學習方法。統計機器學習方法通過已標注數據,將觸發詞識別作為分類問題,采用機器學習模型和人工設計的特征進行分類。常用的統計機器學習模型包括:支持向量機(SVM,Support Vector Machine)、在線算法(Online Algorithm)、貝葉斯分類器(Bayesclassifier)、馬爾科夫邏輯網絡(Markov Logic Networks)、條件隨機場(CRF,ConditionalRandomFields)等。例如,Bjorne等人使用SVM作為分類器,抽取了觸發詞的形態學特征、句子特征(上下文特征)、詞性、詞干特征以及依存鏈上的信息等,并在BioNLP'09Shared Task取得了最好的結果。
生物醫學事件的要素識別作為一種復雜的關系抽取,主要抽取觸發詞到生物實體以及觸發詞到觸發詞之間的關系,其中,觸發詞與觸發詞之間的關系構成了嵌套事件。傳統的要素識別方法中,主要可以分為基于規則的方法和基于統計機器學習的方法。Hakala等人的EVEX系統在BioNLP'13Shared Task中,首先使用TEES系統進行事件抽取,接著使用SVMrank將要素抽取結果進行重排序。SVMrank會為每個由TEES抽取的要素進行打分,分值小于閾值的事件將會被移除,這里的閾值由支持向量回歸(SVR)得到。最終,EVEX在BioNLP'13Shared Task的測試集上取得了50.97%(F-值)的事件結果,是當時所有參加評測任務中最好的結果。
在完成生物醫學事件觸發詞識別和要素識別后,要將識別的結果進行篩選組合,使得觸發詞和要素之間的組合滿足生物醫學事件的基本約束規則,以生成完整的生物醫學事件。這一過程通常被稱為后處理,主要的后處理方法包括基于規則的方法和基于機器學習的方法。機器學習方法在生物醫學事件抽取研究中占據主流,而以雙分解方法為代表的聯合模型由于避免了分階段方法的級聯錯誤而獲得了較高性能。Riedel和McCallum利用PA在線算法,先給觸發詞的每一個類別打一個分值,再給要素的每一個類別打一個分值,最后利用雙分解算法聯合抽取出事件,即找出符合事件約束的分值最高的事件。他們的系統可以解決一個候選觸發詞被判定為事件而沒有要素,以及一個非蛋白質實體被判定為要素而本身不是事件這兩種問題,從而提高事件抽取的性能。基于雙分解的事件抽取系統在BioNLP'11測試集上的結果是56.0%,并在當的評測任務中取得了最好的結果。以上所使用的雙分解原理是在單個觸發詞和單個要素的基礎上進行組合優化,而本專利融入結構化要素識別,針對單個觸發詞和要素結構的組合優化,需要對原雙分解算法進行改進。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710933832.2/2.html,轉載請聲明來源鉆瓜專利網。





