[發(fā)明專利]一種從PubMed文獻(xiàn)篩選基因關(guān)鍵詞的方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910571336.6 | 申請(qǐng)日: | 2019-06-28 |
| 公開(公告)號(hào): | CN110349632B | 公開(公告)日: | 2020-06-16 |
| 發(fā)明(設(shè)計(jì))人: | 汪佳宏;章建平;黃仲曦;潘星華 | 申請(qǐng)(專利權(quán))人: | 南方醫(yī)科大學(xué);廣州序科碼生物技術(shù)有限責(zé)任公司 |
| 主分類號(hào): | G16B50/10 | 分類號(hào): | G16B50/10;G16B50/30;G16B20/00;G16B40/00 |
| 代理公司: | 廣州三環(huán)專利商標(biāo)代理有限公司 44202 | 代理人: | 顏希文;宋靜娜 |
| 地址: | 510000 廣東省廣*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 pubmed 文獻(xiàn) 篩選 基因 關(guān)鍵詞 方法 | ||
一種從PubMed文獻(xiàn)篩選基因關(guān)鍵詞的方法。本發(fā)明提供了一種從文獻(xiàn)數(shù)據(jù)庫(kù)篩選基因關(guān)鍵詞的方法,包括以下步驟:從文獻(xiàn)數(shù)據(jù)庫(kù)的摘要中識(shí)別基因相關(guān)摘要或/和基因相關(guān)句子,建立基因相關(guān)文獻(xiàn)的全文索引,從術(shù)語(yǔ)庫(kù)中篩選關(guān)鍵詞,通過(guò)基因?關(guān)鍵詞關(guān)聯(lián)評(píng)分計(jì)算公式獲得基因和關(guān)鍵詞的關(guān)聯(lián)概率評(píng)分,篩選出與基因密切相關(guān)的關(guān)鍵詞。本發(fā)明構(gòu)建的方法一方面擴(kuò)寬了事先定義的術(shù)語(yǔ)詞匯庫(kù),除了GO術(shù)語(yǔ)外,整合其他權(quán)威數(shù)據(jù)庫(kù)的術(shù)語(yǔ);另一方面引入新的關(guān)鍵詞篩選方法,對(duì)基因與術(shù)語(yǔ)存在關(guān)聯(lián)的概率進(jìn)行評(píng)分,綜合基因和關(guān)鍵詞共發(fā)生于摘要和句子的次數(shù),篩選更牢固的基因?關(guān)鍵詞關(guān)聯(lián)。
技術(shù)領(lǐng)域
本發(fā)明屬于生物信息技術(shù)領(lǐng)域,具體涉及一種從PubMed文獻(xiàn)篩選基因關(guān)鍵詞的方法。
背景技術(shù)
在精準(zhǔn)醫(yī)學(xué)時(shí)代,高通量方法(例如測(cè)序和芯片等)被普遍應(yīng)用于篩選疾病的候選相關(guān)基因(異常表達(dá)、突變或者表觀遺傳學(xué)改變等),但如何解析隨之而得的成百上千個(gè)疾病候選相關(guān)基因參與的分子機(jī)制卻成為一個(gè)新的挑戰(zhàn),獲取與疾病相關(guān)的生物學(xué)事件有關(guān)聯(lián)的基因是分析的突破口。常規(guī)解決辦法是借助人工注釋的數(shù)據(jù)庫(kù)Gene Ontology(GO)進(jìn)行查詢或富集分析。
但是,由于GO注釋是專家人工從文獻(xiàn)中獲取證據(jù),注釋的數(shù)量和范圍相對(duì)有限,注釋速度遠(yuǎn)不及文獻(xiàn)更新,有大量的基因未注釋或者注釋不完全。為此,GO也有一部分注釋是通過(guò)電子注釋,但這些注釋的權(quán)威性就不及人工注釋。生物醫(yī)學(xué)研究者通過(guò)GO能夠掌握基因或蛋白質(zhì)的部分功能,但是不夠全面,更多隱含于文獻(xiàn)未注釋的生物學(xué)功能同樣具有研究?jī)r(jià)值。借助文本挖掘的工具直接從文獻(xiàn)探索基因的功能,是一個(gè)值得嘗試的方法。
文獻(xiàn)挖掘軟件從海量生物醫(yī)學(xué)文獻(xiàn)中挖掘基因-關(guān)鍵詞關(guān)聯(lián)是解析基因功能的重要方法。生物醫(yī)學(xué)術(shù)語(yǔ)和基因在文獻(xiàn)(句子,摘要或全文)中的共發(fā)生(co-occurrence)關(guān)系是判斷兩者關(guān)聯(lián)的重要依據(jù),也是當(dāng)前文獻(xiàn)挖掘工具使用最廣的方法,目前有多款開放使用的文獻(xiàn)挖掘軟件采用共發(fā)生的方法檢索與生物學(xué)功能相關(guān)的基因關(guān)鍵詞。CoPub從多個(gè)本體的詞匯篩選關(guān)鍵詞,CoCiter從用戶提交的自由詞中篩選關(guān)鍵詞,申請(qǐng)人前期開發(fā)的GenCLiP和GenCLiP 2則從單詞、詞組和用戶提交的自由詞篩選關(guān)鍵詞。
GenCLiP篩選基因關(guān)鍵詞的方法是基于基因和關(guān)鍵詞在摘要中高頻共發(fā)生,在實(shí)際使用過(guò)程中,發(fā)現(xiàn)不少基因和關(guān)鍵詞并無(wú)關(guān)聯(lián),假陽(yáng)性率較高,準(zhǔn)確率較低。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的不足之處而提供一種從文獻(xiàn)數(shù)據(jù)庫(kù)篩選基因關(guān)鍵詞的方法。
為實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案為:一種從文獻(xiàn)數(shù)據(jù)庫(kù)篩選基因關(guān)鍵詞的方法,包括以下步驟:
從文獻(xiàn)數(shù)據(jù)庫(kù)的摘要中識(shí)別基因相關(guān)摘要或/和基因相關(guān)句子,建立基因相關(guān)文獻(xiàn)的全文索引,從術(shù)語(yǔ)庫(kù)中篩選關(guān)鍵詞,通過(guò)基因-關(guān)鍵詞關(guān)聯(lián)評(píng)分計(jì)算公式獲得基因和關(guān)鍵詞的關(guān)聯(lián)概率評(píng)分,篩選出與基因密切相關(guān)的關(guān)鍵詞。
優(yōu)選地,所述從文獻(xiàn)數(shù)據(jù)庫(kù)的摘要中識(shí)別基因相關(guān)摘要和基因相關(guān)句子的方法,包括以下步驟:將更新的文獻(xiàn)本地化,根據(jù)建立的基因名稱字典,識(shí)別文獻(xiàn)摘要中出現(xiàn)的基因名稱,與Entrez Gene ID比對(duì),確定基因相關(guān)摘要;再使用模塊把基因相關(guān)摘要分割成句子,確定基因相關(guān)句子。
優(yōu)選地,所述文獻(xiàn)本地化的方法為:通過(guò)PubMed的FTP(ftp://ftp.ncbi.nlm.nih.gov/pubmed/)獲取數(shù)據(jù)庫(kù)年度更新文獻(xiàn)和日更新文獻(xiàn),從下載的XML文件提取PMID(PubMed ID)、標(biāo)題、摘要信息,將PubMed文獻(xiàn)本地化。
優(yōu)選地,所述文獻(xiàn)數(shù)據(jù)庫(kù)為MEDLINE或/和PubMed。
優(yōu)選地,所述使用的模塊為Perl的Text::Sentence。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南方醫(yī)科大學(xué);廣州序科碼生物技術(shù)有限責(zé)任公司,未經(jīng)南方醫(yī)科大學(xué);廣州序科碼生物技術(shù)有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910571336.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種抗肝癌藥物及其制備、應(yīng)用
- 直腸癌放化療療效相關(guān)靶基因的鑒定
- 一種前列腺癌的標(biāo)志物SPOP及其在指導(dǎo)腫瘤治療中的應(yīng)用
- 一種基于文檔級(jí)別注意力機(jī)制的事件觸發(fā)詞抽取方法
- 一種基于候選事件元素注意力機(jī)制的生物事件抽取方法
- 一種面向PubMed論文庫(kù)的作者學(xué)科方向數(shù)據(jù)挖掘方法及系統(tǒng)
- 一種準(zhǔn)確識(shí)別分子相互作用及其極性和方向性方法
- 一種基于PubMed數(shù)據(jù)庫(kù)的英文分詞處理系統(tǒng)及方法
- 一種基于模板生成的化學(xué)反應(yīng)抽取器和抽取方法
- 一種生物冷凍保護(hù)劑及其制備方法和應(yīng)用
- PDF科技文獻(xiàn)管理系統(tǒng)及其方法
- 建立新舊文獻(xiàn)代替關(guān)系的方法及裝置
- 一種自動(dòng)標(biāo)注文獻(xiàn)作廢的方法和裝置
- 一種新型的中文科技文獻(xiàn)半自動(dòng)標(biāo)引方法
- 文獻(xiàn)歸一方法、文獻(xiàn)搜索方法及對(duì)應(yīng)裝置
- 文獻(xiàn)價(jià)值評(píng)估方法和裝置
- 一種基于引用次數(shù)的文獻(xiàn)推薦方法
- 一種多語(yǔ)種文獻(xiàn)分類方法、裝置及存儲(chǔ)介質(zhì)
- 一種文獻(xiàn)標(biāo)簽的識(shí)別方法及裝置
- 一種基于文檔數(shù)據(jù)分析的在線文獻(xiàn)歸納和儲(chǔ)存系統(tǒng)
- 心腦血管疾病易感基因芯片檢測(cè)試劑盒
- 一組用于頭頸部鱗狀細(xì)胞癌分子分型的基因及其應(yīng)用
- 產(chǎn)β-丙氨酸的重組菌及其構(gòu)建方法與應(yīng)用
- 一種檢測(cè)高血壓藥物代謝相關(guān)基因的引物組和試劑盒
- 一組用于腎細(xì)胞癌分子分型的基因及其應(yīng)用
- 一組用于膀胱癌檢測(cè)的基因及其應(yīng)用
- 一組用于髓母細(xì)胞瘤分子分型的基因及其應(yīng)用
- 一種頭發(fā)相關(guān)的基因位點(diǎn)庫(kù)及其應(yīng)用
- 馬度米星化合物的生物合成基因簇及其應(yīng)用
- 彌漫性大B細(xì)胞淋巴瘤分子分型試劑盒及分型裝置





