[發明專利]一種基于基因芯片網絡分析的疾病風險基因識別方法在審
| 申請號: | 201410345984.7 | 申請日: | 2014-07-21 |
| 公開(公告)號: | CN104156503A | 公開(公告)日: | 2014-11-19 |
| 發明(設計)人: | 徐瑞龍;伯曉晨;楊寧敏 | 申請(專利權)人: | 金華市中心醫院 |
| 主分類號: | G06F17/50 | 分類號: | G06F17/50 |
| 代理公司: | 金華科源專利事務所有限公司 33103 | 代理人: | 胡杰平 |
| 地址: | 321000 *** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 基因芯片 網絡分析 疾病 風險 基因 識別 方法 | ||
技術領域
本發明涉及一種生物技術領域,更具體地,是一種基于基因芯片網絡分析的疾病風險基因識別方法。
背景技術
人類復雜疾病往往是多基因聯合作用的結果。隨著基因芯片技術的迅猛發展,并行同時檢測成千上萬的基因表達水平成為可能。基因互作網絡作為生物醫學的重要結構描述,基因互作網絡結構與功能的異常直接反映生物機體功能的異常。處于網絡中熱點區域的基因可能與所研究疾病顯著相關。研究表明基因網絡上的擾動可直接反映于生物機體的表型變化,網絡中某些基因的突變可在網絡上產生級聯放大效應,從而導致疾病的發生,包括單基因致病的血友病、白化病和多基因致病的復雜疾病,如腫瘤、高血壓等。研究表明網絡中基因與基因的相互作用關系發生改變亦可造成生物機體功能異常。近年來的很多分子網絡的解析研究,以期望提供對疾病的更深入的理解,研究表明人類基因相互作用網絡的動態拓撲變化可輔助解決腫瘤的預后問題,另有研究表明構建病原微生物感染網絡為了解病原微生物的致病過程以及分辨不同病原微生物各自的感染模式提供了極其有用的信息,同時網絡的動態結構信息也為聯合用藥和多靶藥物設計提供了理論基礎和極大幫助。
機體的功能是由完整的生物分子網絡驅動的,而疾病是不同病因引起的網絡異常引起的。生物網絡具有很強的穩健性和魯棒性,但是某些特定的網絡節點和網絡拓撲異常變化將導致網絡較大變化,并可能反映于生物機體,即疾病發生。為此,本發明提出一種基于基因芯片網絡分析的疾病風險基因識別方法。
發明內容
本發明的目的旨在提供一種能簡單、方便、快捷地識別疾病驅動的基因互作網絡中風險基因的識別方法,解決基因芯片高通量數據所形成的疾病相關基因挖掘難,功能分析難的問題。
在一種基于基因芯片網絡分析的疾病風險基因識別方法中,輸入的每一成對基因在決策樹森林中出現的頻率作為一種和疾病相關的定量度量。相關程度的計算需經過如下步驟:決策樹的構建、構建訓練集和檢驗集、決策森林的構建、風險基因的識別。
為了達到上述目的,本發明通過以下技術方案實現:
一種基于基因芯片網絡分析的疾病風險基因識別方法,其特征在于,在計算機系統中結合遞歸決策森林技術,通過計算每一成對基因在遞歸決策森林中的出現頻率,定量分析每一對基因和疾病的相關程度,給出基因互作網絡的風險基因的分布圖譜。
本發明所述的遞歸決策森林技術包含兩部分:一是遞歸決策樹的構建;二是遞歸決策樹分類效能的評價。
本發明所述的每一成對基因在遞歸決策森林中的出現頻率,包含任一兩個基因在遞歸決策森林中出現的頻率,這些數據具有相似的類型。
本發明所述的定量分析每一對基因和疾病的相關程度,給出基因互作網絡的風險基因的分布圖譜,它的計算包括下列步驟:接收來自基因芯片的表達譜數據,對數據進行標準化;從構建的決策樹中提取相應節點的特征基因子集,若干決策樹構成決策森林,對決策所述的每一成對基因在遞歸決策森林中的出現頻率,包含任一兩個基因在遞歸決策森林中出現的頻率,這樹分類效能進行評價;計算每一基因對在決策森林中的出現頻率;計算基因間的這種相關關系與疾病的關聯函數。本發明通過可視化排列檢驗閾值以上的基因互作關系對,得到基因網絡的風險基因分布圖譜。
本發明結合遞歸決策樹數據挖掘技術,通過定量分析每一對基因在全部遞歸決策樹上的出現頻率,評定基因互作網絡中可能與疾病相關的風險基因,解決了基因芯片高通量數據所形成的疾病相關基因挖掘難,功能分析難的問題,達到分析與可視化生物分子網絡結構與功能的目的,從而提高生物分析網絡乃至疾病成因的理解。本發明簡單、方便、快捷,可以直觀展示基因芯片中基因和疾病的關聯程度,將對理解疾病發病原因與病理過程提供有效的信息,也將對研究不同疾病之間的關系具有重要理論意義和實用價值。
附圖說明
圖1為本發明的一種基于基因芯片網絡分析的疾病風險基因識別方法的總體框圖。
具體實施方式
一種基于基因芯片網絡分析的疾病風險基因識別方法,其特征在于,在計算機系統中結合遞歸決策森林技術,通過計算每一成對基因在遞歸決策森林中的出現頻率,定量分析每一對基因和疾病的相關程度,給出基因互作網絡的風險基因的分布圖譜。
具體步驟如圖1所示:檢查從計算機輸入的基因表達譜數據X的合法性,進行n倍交叉驗證、n×n對訓練集和測試集,建立決策森林,通過遞歸決策樹的分類模型并進行評價,建立候選基因集,計算每一對基因在遞歸決策森林上出現的頻率、計算基因與疾病的關聯程度打分選擇最終基因,結束識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于金華市中心醫院,未經金華市中心醫院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410345984.7/2.html,轉載請聲明來源鉆瓜專利網。





