[發明專利]一種基于共訓練的半監督生物醫學事件抽取方法在審
| 申請號: | 201711177721.X | 申請日: | 2017-11-23 |
| 公開(公告)號: | CN107978373A | 公開(公告)日: | 2018-05-01 |
| 發明(設計)人: | 盧奕南;馬小蕾;路揚;潘航宇 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06F17/30 |
| 代理公司: | 長春市恒譽專利代理事務所(普通合伙)22212 | 代理人: | 李榮武 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 訓練 監督 生物醫學 事件 抽取 方法 | ||
技術領域
本發明涉及文本挖掘領域,尤其涉及一種基于共訓練的半監督生物醫學事件抽取方法。
背景技術
生物醫學事件提取是信息抽取的一個重要分支。隨著生物醫學文獻的快速增長,科研工作者需要大量的精力和時間來獲得相關的科學知識。因此,生物醫學事件信息的自動抽取引起了人們極大的興趣。因此,有必要以有效和準確的方法提取生物醫學事件。
目前,事件抽取的方法可以大致可以分為兩類:基于規則的方法和基于機器學習的方法。基于規則的事件抽取系統由一系列規則組成,包括句子結構、語法關系和語義關系等。這些是從訓練數據手動定義或自動學習的。人工干預可以達到較高的精度,但召回率較低。但當語料庫較大時,該方法很難指定對所有樣本都能提高召回率的規則。基于機器學習的事件提取系統不需要人工干預,它將事件抽取視為一個分類問題,基于機器學習的方法提取大量的特征,如語法特征和語法特征。這些特征通常被輸入到支持向量機模型(SVM)中,用于訓練模型。基于機器學習的系統性能往往要優于基于規則的系統性能。隨著深度學習的不斷發展,許多深度學習方法已成功地應用于自然語言處理中。用卷積神經網絡CNN分層構建文本表示;用深度信念網絡DBN對生物醫學文本進行分類等。
以上這些方法大多數都是基于已標記數據,使用監督算法研究改進生物醫學事件提取系統的性能。然而,這些方法受到訓練數據的限制,尤其當訓練數據的規模太小時可能產生過擬合問題。而標注數據的成本是巨大的,為解決該問題,可以將不同的已標注生物醫學語料庫合并成一個,或使用半監督的方法。協同訓練是Blum和Mitchell提出的半監督思想的一種重要算法,它在兩個訓練視角分別訓練兩個分類器。每個分類器充分學習,可以有條件地獨立地給出類標簽。
綜上所述,我們提出一種基于共訓練的半監督生物醫學事件抽取方法。首先,對生物醫學術語的(觸發詞、參數)對進行識別,并用SVM模型分類到預先定義的事件類型中。在特征自動提取階段,CNN的輸入是一種基于詞嵌入的新的短句表示,它是觸發詞和參數之間的依賴性短句的補充信息。最后,選擇未標注語料庫中經SVM模型和的CNN模型預測后符合條件的對(觸發詞,參數)回填到訓練集中重新訓練,直到F值達到最大值。
發明內容
為解決現有的監督學習進行生物醫學事件抽取中已標注樣本量很小,容易產生過擬合的問題,本發明提出了一種基于共訓練的半監督生物醫學事件抽取方法,發明內容主要包括:用半監督學習的方法擴充已標注樣本集的思想;使用SVM分類器和CNN分類器共訓練,選擇樣本回填至訓練集的流程;構建用作CNN輸入的短句集的過程;構建CNN網絡的流程;未標注樣本集中用于回填至訓練集的樣本選擇策略。
一種基于共訓練的半監督生物醫學事件抽取方法,其特征在于:至少包括以下步驟:
步驟1:初始化有標簽數據集作為原始訓練集,進行文本預處理,并生成短句訓練集,同時初始化無標簽數據集。
步驟2:在訓練集上訓練SVM分類器,在短句訓練集上訓練CNN分類器,用好的SVM分類器和CNN分類器對無標簽樣本進行分類預測。
步驟3:依據選擇策略,選擇無標簽數據集中符合條件的樣本,回填至訓練集中,用擴充后的新訓練集重新訓練SVM分類器和CNN分類器,重復步驟2、3,直至開發集上的F值達到最大。
步驟4:經上述迭代過程,增量地擴展了訓練集,并得到訓練好的SVM分類器和CNN分類器,結合兩分類器的結果,對最終待分類預測的文本進行分類預測。
本發明的有有益效果:
與現有技術相比,采用本發明所述的設計方案,可以達到以下技術效果:
1、使用半監督學習的方法擴充現有的已標注數據集,能在一定程度上減少過擬合問題,提高分類準確度。
2、使用觸發詞和參數之間的依賴性短句的補充信息構造短句集,作為CNN模型的輸入,將附加信息添加到依存路徑上,可以豐富最短依存路徑的語義信息,以更準確地對事件類型進行分類。
3、使用SVM和CNN兩個分類器進行共訓練,充分利用兩個分類器的預測信息,將其結合起來合理利用,提升生物醫學事件抽取效果。
4、使用CNN卷積神經網絡對短句集進行分類,解決了生物醫學文本大多數句子太長,分類效果不好的問題。
附圖說明
圖1是所提出生物醫學事件抽取方法框架圖。
圖2是卷積神經網絡CNN的結構圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711177721.X/2.html,轉載請聲明來源鉆瓜專利網。





