[發明專利]一種構建基因相互作用網絡的方法無效
| 申請號: | 201010214005.6 | 申請日: | 2010-06-29 |
| 公開(公告)號: | CN102270208A | 公開(公告)日: | 2011-12-07 |
| 發明(設計)人: | 曾華宗 | 申請(專利權)人: | 上海聚類生物科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200333 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 構建 基因 相互作用 網絡 方法 | ||
技術領域
本發明屬于生物技術領域,涉及一種基于文獻挖掘技術進行基因之間相互作用關系研究的方法。
背景技術
Gene(基因)是編碼蛋白質或RNA(核糖核酸)等具有特定功能產物的遺傳信息的基本單位,是染色體或基因組的一段DNA(脫氧核糖核酸)序列,對以RNA作為遺傳信息載體的RNA病毒而言,基因則是RNA序列。包括編碼序列(外顯子)、編碼區前后對于基因表達具有調控功能的序列和單個編碼序列間的間隔序列(內含子)。從生物進化的角度來講,基因又稱為遺傳因子,它是生物遺傳變異的物質基礎,是DNA(或RNA)分子上具有遺傳信息的特定核苷酸序列的總稱,是具有遺傳效應的DNA(或RNA)分子片段。基因通過復制把遺傳信息傳遞給下一代,使后代出現與親代相似的性狀。人類大約有幾萬個基因,儲存著生命孕育生長、凋亡過程的全部信息,通過復制、表達、修復,完成生命繁衍、細胞分裂和蛋白質合成等重要生理過程。基因是生命的密碼,記錄和傳遞著遺傳信息。生物體的生、長、病、老、死等一切生命現象都與基因有關。它同時也決定著人體健康的內在因素,與人類的健康密切相關。
基因存在于生物體內的功能之一便是翻譯蛋白質,通過蛋白質活性的表現,決定生物體的表型。換而言之,生物的各種性狀幾乎都是基因之間相互作用、調控各個基因表達的結果。所謂基因之間的相互作用,是指不同基因之間存在的表達調控關系,一般都是一個基因的表達產物作用于另一個基因,影響另一個基因的轉錄、翻譯等過程。
為研究基因之間相互作用關系,本發明所述方法引入了一項NLP(自然語言處理)的計算機技術。NLP(Natural?Language?Processing)是人工智能的一項新型技術,也是很困難的一項。它依賴于高效率的計算機,通過不斷的機器學習,實現對海量自然語言文檔的高效處理,從中提取我們需要的信息。在生物學研究中引入NLP技術研究基因之間的相互作用,可通過檢索海量已經報道的文獻的關鍵詞、摘要等信息,提取出我們需要的文獻信息,以節省大量重復實驗所耗費的經費與時間。
發明內容
本發明所述的方法的一大特點便是將NLP技術用于研究基因之間的相互作用關系,并以此構建基因相互作用網絡,該方法實施的基本流程為:
步驟1、文檔搜索及格式化。
步驟2、將文檔分離成單個句子,作為后續分析基本單位。
步驟3、基因描述的定位
步驟4、統一基因描述中使用的基因符號。
步驟5、建立基因互作動詞詞典
步驟6、生成需要研究基因的同義詞字典,并從上述句子中提取出基因的描述。
步驟7、統計分析基因名、基因互作動詞和需要研究的基因同時出現的句子,整理成列表。
步驟8、構建相互作用關系網絡。
附圖說明
圖1、本發明所述方法的實施流程圖
實施方式
本發明將以MAPK(促分裂素原活化蛋白激酶)基因的相互作用關系網絡的構建為例,介紹本發明所述方法的具體實施步驟。
步驟1、利用關鍵詞MAPK從Pubmed數據庫
(http://www.ncbi.nlm.nih.gov/pubmed)中搜索相關文獻,下載到本地,并整理成XML格式。
步驟2、下載基于java環境的Lingpipe工具包(http://alias-i.com/lingpipe/),利用它的Sentence?tokenlization工具將搜索到的摘要文本分離成單個句子,整理成文檔保存,作為后續分析的基本單位。
步驟3、應用ABNER軟件進行人類基因的描述的定位,并提取出基因,對于提取的基因的描述中,多個基因縮寫到一起的將被分離,如“STAT3/5?gene”將被解析成STAT3?gene和STAT5?gene。
步驟4、因為搜索到的文獻中對于基因名字的書寫格式大多不同,為了分析的方便和準確,需要將文獻中的基因符號統一為官方的基因符號,這里我們以NCBI(www.ncbi.nlm.nih.gov/)的Entrez?gene數據庫為準。
步驟5、建立一個基因互作的動詞詞典,包含如repress,regulate,inhibit,interact,phosphorylate,downregulate,upregulate等所有動詞及其變型。詞典取材自BioNLP項目(http://bionlp.sourceforge.net/),然后利用Lingpipe工具包分離句子中基因互作的動詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海聚類生物科技有限公司,未經上海聚類生物科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010214005.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:光學式位置檢測裝置、機械手及機械臂
- 下一篇:夾頭





