[發(fā)明專利]不平衡數(shù)據(jù)集上生物醫(yī)學(xué)多參事件抽取的新方法有效
| 申請?zhí)枺?/td> | 201611138305.4 | 申請日: | 2016-12-12 | 
| 公開(公告)號: | CN106777957B | 公開(公告)日: | 2019-07-30 | 
| 發(fā)明(設(shè)計)人: | 盧奕南;路揚;馬小蕾;潘航宇;閆雪 | 申請(專利權(quán))人: | 吉林大學(xué) | 
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06F17/27;G06K9/62 | 
| 代理公司: | 長春市恒譽專利代理事務(wù)所(普通合伙) 22212 | 代理人: | 鞠傳龍 | 
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 | 
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關(guān)鍵詞: | 不平衡 數(shù)據(jù) 生物醫(yī)學(xué) 參事 抽取 新方法 | ||
本發(fā)明公開了一種不平衡數(shù)據(jù)集上生物醫(yī)學(xué)多參事件抽取的新方法,步驟如下:第一部分:步驟1:獲取序列庫;步驟2:構(gòu)造序列數(shù)據(jù)庫S;步驟3:給定最小支持度閾值;步驟4:判斷序列個數(shù);第二部分:步驟1:在選擇的樣本集上提取四類特征;步驟2:得到多類別的分類器;第三部分:步驟1:計算相似度;步驟2:計算觸發(fā)詞重要度步驟3:合并重要度和相似度Sim(ti,aj,ak)得到聯(lián)合評分Score(ti,aj,ak);步驟4:給定閾值δ。有益效果:采用數(shù)據(jù)挖掘和自然語言處理技術(shù),方法靈活,易于實現(xiàn),可達到很高的準(zhǔn)確度。
技術(shù)領(lǐng)域
本發(fā)明涉及一種生物醫(yī)學(xué)多參事件抽取的新方法,特別涉及一種不平衡數(shù)據(jù)集上生物醫(yī)學(xué)多參事件抽取的新方法。
背景技術(shù)
當(dāng)前,生物醫(yī)學(xué)文獻提供了豐富的科學(xué)知識來源,由于非結(jié)構(gòu)化或半結(jié)構(gòu)化的生物醫(yī)學(xué)文獻的快速增長,科研工作者需要大量的精力和時間來獲得相關(guān)的科學(xué)知識。自動抽取生物醫(yī)學(xué)事件可以應(yīng)用到許多生物醫(yī)學(xué)領(lǐng)域。在事件抽取任務(wù)中,基于規(guī)則的方法和基于機器學(xué)習(xí)的方法是目前主要的方法。基于規(guī)則的方法同生物醫(yī)學(xué)關(guān)系抽取中基于模式的方法類似,手工定義句法規(guī)則,然后在訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)得到規(guī)則,從而抽取出事件。基于機器學(xué)習(xí)的方法把抽取任務(wù)看成是分類問題。以上這些方法很少提及到的一個問題就是訓(xùn)練數(shù)據(jù)是高度不平衡的,負(fù)樣本的數(shù)目遠(yuǎn)低于正樣本的數(shù)目;而且大多數(shù)的多參事件抽取方法都遵循管道模型,在對抽取的基礎(chǔ)上,進一步抽取多元關(guān)系,這樣容易造成級聯(lián)錯誤。這種方法直接抽取多元關(guān)系的方法,對樣本進行過濾平衡訓(xùn)練的正負(fù)樣本,得到用于分類的有意義的樣本集;以及采用聯(lián)合評分機制對預(yù)測結(jié)果進行修正,可提高預(yù)測的精度。
發(fā)明內(nèi)容
本發(fā)明的目的是為了在高度不平衡的生物醫(yī)學(xué)文獻上進行精確的生物醫(yī)學(xué)多參事件的自動抽取,而提供的一種不平衡數(shù)據(jù)集上生物醫(yī)學(xué)多參事件抽取的新方法。
本發(fā)明提供的不平衡數(shù)據(jù)集上生物醫(yī)學(xué)多參事件抽取的新方法,其具體方法如下所述:
所需條件:生物文獻的語料庫,nltk、nltk.org分詞和分句工具以及生物醫(yī)學(xué)依存路徑分析工具以及抽取模型特征系統(tǒng);待檢測的生物醫(yī)學(xué)文本,普通PC機;
實現(xiàn)步驟如下:
第一部分:通過對生物文獻語料庫進行預(yù)處理,獲取多參數(shù)事件的特征,以及采用序列模式的方法平衡訓(xùn)練的正負(fù)樣本,從而得到用于分類的有意義的樣本集,具體步驟如下:
步驟1:開始,對給定的語料庫進行分詞、分句、詞性標(biāo)注和路徑依存分析獲取序列庫;
步驟2:定義句子中的候選觸發(fā)詞集,它們來源于觸發(fā)詞字典,而蛋白質(zhì)和觸發(fā)詞構(gòu)成參數(shù)集,蛋白質(zhì)來源于蛋白質(zhì)字典,這樣生成候選觸發(fā)詞和各個參數(shù)形成的對集,將這些對集所包含的依存路徑中的關(guān)鍵字構(gòu)造序列數(shù)據(jù)庫S;
步驟3:給定最小支持度閾值,利用序列模式算法在生成的序列庫S中挖掘出頻繁的規(guī)則或者模式;
步驟4:對無標(biāo)簽的樣本判斷其依存路徑是否包含頻繁模式序列個數(shù),即大于給定的閾值,否則將其過濾并去掉一些負(fù)樣本;
第二部分:在選擇的樣本特征集上訓(xùn)練得到基于支持向量機的預(yù)測模型,具體步驟如下:
步驟1:在選擇的樣本集上提取四類特征,包括Token特征、句子特征、詞袋特征和外部資源特征;
步驟2:應(yīng)用支持向量機方法進行訓(xùn)練得到多類別的分類模型;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學(xué),未經(jīng)吉林大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611138305.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
 - 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
 - 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
 - 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
 - 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
 - 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
 - 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
 - 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
 - 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
 - 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
 
- 從聚合生物醫(yī)學(xué)裝置中萃取可萃取材料的裝置、組合件和方法
 - 基于生物可吸收基質(zhì)的可植入生物醫(yī)學(xué)裝置
 - 基于生物可吸收基質(zhì)的可植入生物醫(yī)學(xué)裝置
 - 基于生物可吸收基質(zhì)的可植入生物醫(yī)學(xué)裝置
 - 用于生物醫(yī)學(xué)模擬的系統(tǒng)和方法
 - 一種生物醫(yī)學(xué)知識庫的信息更新方法及系統(tǒng)
 - 基于上下文向量圖核的生物醫(yī)學(xué)實體關(guān)系分類方法
 - 生物醫(yī)學(xué)實體展示平臺的構(gòu)建方法、裝置和計算機設(shè)備
 - 基于預(yù)訓(xùn)練模型和自注意力機制的生物醫(yī)學(xué)關(guān)系抽取方法
 - 基于文獻的癌癥相關(guān)生物醫(yī)學(xué)事件數(shù)據(jù)庫構(gòu)建方法
 





