[發明專利]一種從PubMed文獻篩選基因關鍵詞的方法有效
| 申請號: | 201910571336.6 | 申請日: | 2019-06-28 |
| 公開(公告)號: | CN110349632B | 公開(公告)日: | 2020-06-16 |
| 發明(設計)人: | 汪佳宏;章建平;黃仲曦;潘星華 | 申請(專利權)人: | 南方醫科大學;廣州序科碼生物技術有限責任公司 |
| 主分類號: | G16B50/10 | 分類號: | G16B50/10;G16B50/30;G16B20/00;G16B40/00 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 顏希文;宋靜娜 |
| 地址: | 510000 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 pubmed 文獻 篩選 基因 關鍵詞 方法 | ||
1.一種從文獻數據庫篩選基因關鍵詞的方法,其特征在于,包括以下步驟:
從文獻數據庫的摘要中識別基因相關摘要或/和基因相關句子,建立基因相關文獻的全文索引,從術語庫中篩選關鍵詞,通過基因-關鍵詞關聯評分計算公式獲得基因和關鍵詞的關聯概率評分,篩選出與基因密切相關的關鍵詞;所述基因-關鍵詞關聯的計算公式為:
R=(1-S^NS×A^NA×E^NE)×(1+2N/NG+2N/NK)-(0.1×NA/N)
R表示基因-關鍵詞關聯評分;
S表示當基因和術語在出現在一篇摘要的一個句子時,無關聯的概率;
A表示當基因和術語在出現在一篇摘要的不同句子時,無關聯的概率;
E表示當基因和關鍵詞出現在一篇摘要的多個句子時,無關聯的概率;
N表示出現基因和術語的摘要篇數;
NS表示有一個句子出現基因和術語的摘要數;
NE表示有多個句子出現基因和術語的摘要數;
NA表示在不同句子出現基因和術語出現的摘要數;
NG表示基因的相關摘要數;
NK表示術語的相關摘要數;
^表示冪或次方;
1-S^NS×A^NA×E^NE表示至少有一篇文獻提及基因和術語關聯的概率;
1+2N/NG+2N/NK表示加權,對相關摘要數少的基因或術語加大權重;0.1×NA/N表示罰分,基因和術語僅在摘要中共同出現時減分。
2.如權利要求1所述的從文獻數據庫篩選基因關鍵詞的方法,其特征在于,所述從文獻數據庫的摘要中識別基因相關摘要和基因相關句子的方法,包括以下步驟:將更新的文獻本地化,根據建立的基因名稱字典,識別文獻摘要中出現的基因名稱,與Entrez Gene ID比對,確定基因相關摘要;再使用模塊把基因相關摘要分割成句子,確定基因相關句子。
3.如權利要求2所述的從文獻數據庫篩選基因關鍵詞的方法,其特征在于,所述文獻數據庫為MEDLINE或/和PubMed。
4.如權利要求3所述的從文獻數據庫篩選基因關鍵詞的方法,其特征在于,所述文獻本地化的方法為:通過MEDLINE或/和PubMed的FTP獲取數據庫年度更新文獻和日更新文獻,從下載的XML文件提取PubMed ID、標題、摘要信息,將PubMed文獻本地化。
5.如權利要求2所述的從文獻數據庫篩選基因關鍵詞的方法,其特征在于,所述使用的模塊為Perl的Text::Sentence。
6.如權利要求1所述的從文獻數據庫篩選基因關鍵詞的方法,其特征在于,所述建立基因相關文獻的全文索引的方法,包括以下步驟:將搜索引擎與MySQL數據庫結合,MySQL數據庫存儲文獻和基因的PMID、SID和GID信息,使得索引基因相關文獻時并關聯PMID、SID和GID字段。
7.如權利要求1所述的從文獻數據庫篩選基因關鍵詞的方法,其特征在于,所述關鍵詞為有明確的生物醫學含義的術語。
8.如權利要求1所述的從文獻數據庫篩選基因關鍵詞的方法,其特征在于,所述術語庫選自Gene Ontology、Disease Ontology、PolySearch2、CellMarke的術語和GenCLiP 2的關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南方醫科大學;廣州序科碼生物技術有限責任公司,未經南方醫科大學;廣州序科碼生物技術有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910571336.6/1.html,轉載請聲明來源鉆瓜專利網。





