[發(fā)明專利]一種從生物醫(yī)學(xué)文本中挖掘蛋白質(zhì)亞細(xì)胞定位信息的方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810436260.1 | 申請(qǐng)日: | 2018-05-09 |
| 公開(公告)號(hào): | CN108846257B | 公開(公告)日: | 2021-08-24 |
| 發(fā)明(設(shè)計(jì))人: | 王順芳;鄧琳;房園;郭磊;曹子成 | 申請(qǐng)(專利權(quán))人: | 云南大學(xué) |
| 主分類號(hào): | G16B40/00 | 分類號(hào): | G16B40/00;G06F40/295 |
| 代理公司: | 云南凌云律師事務(wù)所 53207 | 代理人: | 董建國 |
| 地址: | 650091*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 生物醫(yī)學(xué) 文本 挖掘 蛋白質(zhì) 細(xì)胞 定位 信息 方法 | ||
本發(fā)明公開一種從生物醫(yī)學(xué)文本中挖掘蛋白質(zhì)亞細(xì)胞定位信息的方法。首先,通過對(duì)源文本進(jìn)行預(yù)處理,識(shí)別源文本中的蛋白質(zhì)命名實(shí)體。同時(shí),對(duì)源文本中的亞細(xì)胞位置的關(guān)鍵詞進(jìn)行識(shí)別,利用自建的亞細(xì)胞位置信息字典在每個(gè)文檔中進(jìn)行關(guān)鍵詞匹配,進(jìn)而在文本數(shù)據(jù)中對(duì)亞細(xì)胞位置的關(guān)鍵詞進(jìn)行提取。其次,將包含命名實(shí)體與位置信息共現(xiàn)的句子進(jìn)行篩選,得到蛋白質(zhì)命名實(shí)體和亞細(xì)胞位置信息共現(xiàn)的句子數(shù)據(jù)集。然后,將提取出來的特征向量化,構(gòu)建特征集合。最后使用以疊加式的方法組合單個(gè)分類器所構(gòu)成的集成分類器來構(gòu)建分類模型,并將該分類模型應(yīng)用到目標(biāo)生物醫(yī)學(xué)文本挖掘。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別涉及一種基于文本挖掘技術(shù)的蛋白質(zhì)亞細(xì)胞定位信息的提取方法。
技術(shù)背景
生物醫(yī)學(xué)文本挖掘是文本挖掘和生物醫(yī)學(xué)領(lǐng)域相結(jié)合的新型交叉學(xué)科,其內(nèi)容是在現(xiàn)有生物醫(yī)學(xué)文獻(xiàn)基礎(chǔ)上,利用文本挖掘技術(shù)進(jìn)行知識(shí)發(fā)現(xiàn)。近年來,生物文獻(xiàn)以指數(shù)級(jí)別的速度增長,這些非結(jié)構(gòu)化的文本中蘊(yùn)含了大量的生物醫(yī)學(xué)實(shí)驗(yàn)數(shù)據(jù)和成果。在生物醫(yī)學(xué)文獻(xiàn)中發(fā)現(xiàn)知識(shí)的意義在于,研究人員可以利用新發(fā)現(xiàn)的知識(shí)探究生命科學(xué)中的一些本質(zhì)關(guān)系,例如基因和疾病的關(guān)系、基因和細(xì)胞的關(guān)系,甚至基因間的相互關(guān)系,從而便于研究人員可以更好地診斷、治療甚至預(yù)防目前技術(shù)難以攻克的疾病。然而,呈指數(shù)級(jí)增長趨勢(shì)的文獻(xiàn)數(shù)量使得生物學(xué)家難以通過人工查找的方式迅速發(fā)現(xiàn)知識(shí)。所以,為了避免頻繁、重復(fù)的人工操作,利用計(jì)算機(jī)處理大量生物醫(yī)學(xué)文獻(xiàn)是解決這一問題的重要途徑。
生物醫(yī)學(xué)文本挖掘相關(guān)研究內(nèi)容分別有生物醫(yī)學(xué)命名實(shí)體識(shí)別、同義詞與縮略語識(shí)別、生物醫(yī)學(xué)實(shí)體關(guān)系抽取、生物醫(yī)學(xué)文獻(xiàn)分類、生物醫(yī)學(xué)實(shí)體名稱規(guī)范化等。而在生物醫(yī)學(xué)實(shí)體關(guān)系抽取的問題中,現(xiàn)有的研究大多側(cè)重于采用文本挖掘手段從文本中挖掘蛋白質(zhì)相互作用關(guān)系及基因與疾病關(guān)聯(lián)關(guān)系。
朱斐等提出了“一種利用文本數(shù)據(jù)構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)的方法”(2015年5月27日公布的,公布號(hào)為:CN104657626)公開了一種利用文本數(shù)據(jù)構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)的方法。薛涵凜等提出了“一種基于雙向LSTM和CRF的命名實(shí)體識(shí)別方法”(2018年1月30日公布的,公布號(hào)為:CN107644014),通過對(duì)現(xiàn)有的傳統(tǒng)命名實(shí)體識(shí)別算法進(jìn)行的改進(jìn)優(yōu)化,有效提取文本特征信息并且能夠在不同語言的實(shí)體識(shí)別。李滿生等提出的“蛋白質(zhì)相互作用信息的文本挖掘研究進(jìn)展 ”(中國科學(xué),2010年)總結(jié)出了基于生物文本挖掘蛋白質(zhì)相互作用信息的一般流程;
然而,蛋白質(zhì)及其自身所在的亞細(xì)胞位置也是一組重要關(guān)系。蛋白質(zhì)是構(gòu)成細(xì)胞的主要成分之一,對(duì)生物體的生命活動(dòng)有重要且多樣的作用。而蛋白質(zhì)自身所處的亞細(xì)胞位置在很大程度上決定了蛋白質(zhì)的功能。蛋白質(zhì)在核糖體中合成后經(jīng)蛋白質(zhì)分選信號(hào)引導(dǎo)后如果沒有被轉(zhuǎn)運(yùn)到特定的亞細(xì)胞,將會(huì)對(duì)細(xì)胞功能造成極大影響。因此,蛋白質(zhì)亞細(xì)胞定位是解釋蛋白質(zhì)功能的重要信息來源,是研究蛋白質(zhì)功能的基礎(chǔ)。文獻(xiàn)數(shù)目巨大且增長迅速,人們通過手工閱讀文獻(xiàn)往往難以及時(shí)、高效地發(fā)現(xiàn)最新的蛋白質(zhì)亞細(xì)胞定位信息。單純依靠手工閱讀來獲取最新的蛋白質(zhì)亞細(xì)胞定位信息是不現(xiàn)實(shí)的。使用文本挖掘技術(shù)搜集蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù),自動(dòng)提取蛋白質(zhì)亞細(xì)胞定位信息,能有效提高研究人員獲取最新信息的效率。本發(fā)明結(jié)合文本挖掘技術(shù)和以疊加式的方法組合單個(gè)分類器所構(gòu)成的集成分類器來構(gòu)建分類模型,實(shí)質(zhì)就是要從文本中挖掘出蛋白質(zhì)亞細(xì)胞定位信息。
發(fā)明內(nèi)容
基于上述存在的問題,本發(fā)明提供一種從生物醫(yī)學(xué)文本中挖掘蛋白質(zhì)亞細(xì)胞定位信息的方法。通過對(duì)源文本進(jìn)行預(yù)處理,識(shí)別源文本中的蛋白質(zhì)命名實(shí)體。同時(shí),對(duì)源文本中的亞細(xì)胞位置的關(guān)鍵詞進(jìn)行識(shí)別,利用自己構(gòu)建的亞細(xì)胞位置字典在每個(gè)文檔中進(jìn)行關(guān)鍵詞匹配,進(jìn)而在文本數(shù)據(jù)中對(duì)亞細(xì)胞位置的關(guān)鍵詞進(jìn)行提取。其次,將包含命名實(shí)體與位置信息共現(xiàn)的句子進(jìn)行篩選,得到蛋白質(zhì)命名實(shí)體和亞細(xì)胞位置信息共現(xiàn)的句子數(shù)據(jù)集。然后,將提取出來的特征向量化,構(gòu)建特征集合。最后使用疊加式的方法組合單個(gè)分類器的預(yù)測(cè)結(jié)果,提高分類器的預(yù)測(cè)能力。
本發(fā)明的目的在于提供一種從生物醫(yī)學(xué)文本中挖掘蛋白質(zhì)亞細(xì)胞定位信息的方法,其具體技術(shù)方案包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于云南大學(xué),未經(jīng)云南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810436260.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 從聚合生物醫(yī)學(xué)裝置中萃取可萃取材料的裝置、組合件和方法
- 基于生物可吸收基質(zhì)的可植入生物醫(yī)學(xué)裝置
- 基于生物可吸收基質(zhì)的可植入生物醫(yī)學(xué)裝置
- 基于生物可吸收基質(zhì)的可植入生物醫(yī)學(xué)裝置
- 用于生物醫(yī)學(xué)模擬的系統(tǒng)和方法
- 一種生物醫(yī)學(xué)知識(shí)庫的信息更新方法及系統(tǒng)
- 基于上下文向量圖核的生物醫(yī)學(xué)實(shí)體關(guān)系分類方法
- 生物醫(yī)學(xué)實(shí)體展示平臺(tái)的構(gòu)建方法、裝置和計(jì)算機(jī)設(shè)備
- 基于預(yù)訓(xùn)練模型和自注意力機(jī)制的生物醫(yī)學(xué)關(guān)系抽取方法
- 基于文獻(xiàn)的癌癥相關(guān)生物醫(yī)學(xué)事件數(shù)據(jù)庫構(gòu)建方法
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





