[發明專利]基于基因共表達網絡分析的癌癥轉錄組數據處理方法在審
| 申請號: | 202210040488.5 | 申請日: | 2022-01-14 |
| 公開(公告)號: | CN114360642A | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 付聰;梁磊;張彥;易星丞;許彤 | 申請(專利權)人: | 吉林省蒲川生物醫藥有限公司 |
| 主分類號: | G16B25/10 | 分類號: | G16B25/10;G06K9/62 |
| 代理公司: | 長春眾邦菁華知識產權代理有限公司 22214 | 代理人: | 于曉慶 |
| 地址: | 130000 吉林省長春市高新區硅谷*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 基因 表達 網絡分析 癌癥 轉錄 數據處理 方法 | ||
基于基因共表達網絡分析的癌癥轉錄組數據處理方法,涉及數據處理領域,包括獲取原始數據集;原始數據的預處理;識別差異表達基因;構建基因共表達網絡;挖掘基因模塊;基因模塊與臨床指標的關聯分析;基因模塊的富集分析;識別關鍵基因;探究關鍵基因的功能;關鍵基因的生存分析。由富集分析結果可知,使用該方法劃分的基因模塊具有顯著的生物學意義;由Disgenet數據庫對于關鍵基因的驗證結果可知,使用該方法識別出的關鍵基因大部分均與腫瘤疾病有關。該方法在基因模塊的挖掘及關鍵基因的識別方面具有良好的效果。該方法可作為癌癥疾病轉錄組數據的一個重要工具,其應用也為進一步了解癌癥疾病的患病機制提供了新的方向。
技術領域
本發明涉及一種基因數據處理方法,具體涉及一種基于基因共表達網絡分析的癌癥轉錄組數據處理方法。
背景技術
近年來,癌癥疾病的患病率越來越高,但是由于這類疾病治療困難又極易復發,故對于癌癥疾病的研究變得越來越重要。如果能利用生物信息學方法對癌癥疾病進行功能基因模塊的挖掘,并識別出其中的關鍵基因,必將能夠進一步了解癌癥疾病的患病機制,并對其臨床治療具有一定的幫助。
隨著二代測序技術的快速發展,基因表達數據出現了爆炸式的增長,如何從大量數據中挖掘出隱藏的知識成為了后基因組時代的重要任務之一。與此同時,隨著研究的深入,人們逐漸發現在細胞環境中,各種生物因子不是單獨地行使作用,而是相互合作完成各種復雜的生物功能。故將各類生物數據采用適當的方法轉化為生物網絡,從而利用圖論以及復雜網絡理論的相關知識對其進行分析與挖掘,已成為處理海量生物數據的有效方法。生物網絡是在生物學領域的科學問題中,利用生物元素構建的網絡,網絡中的結點代表生物元素,如蛋白質、基因等,而網絡中的邊則代表生物元素在生化、物理或功能上的相互作用關系。基因共表達網絡是一種常用的生物網絡,它的出現為基因組學的發展開辟了一個新的方向。
發明內容
為了對癌癥轉錄組數據進行有效處理,本發明提供一種基于基因共表達網絡分析的癌癥轉錄組數據處理方法。
本發明為解決技術問題所采用的技術方案如下:
本發明的基于基因共表達網絡分析的癌癥轉錄組數據處理方法,主要包括以下步驟:
步驟一、獲取原始數據集;
步驟二、原始數據的預處理;
步驟三、識別差異表達基因;
步驟四、構建基因共表達網絡;
步驟五、挖掘基因模塊;
步驟六、基因模塊與臨床指標的關聯分析;
步驟七、基因模塊的富集分析;
步驟八、識別關鍵基因;
步驟九、探究關鍵基因的功能;
步驟十、關鍵基因的生存分析。
進一步的,步驟一中,所述原始數據集來源于TCGA數據庫或GEO數據庫;所述原始數據集包括癌癥組織樣本中的基因表達數據、癌旁組織樣本中的基因表達數據和每個樣本對應的臨床數據。
進一步的,步驟二中,首先過濾掉低表達基因,然后對樣本進行層次聚類,刪除離群樣本。
進一步的,步驟三中,利用FC-t算法識別出滿足限定條件的所有差異表達基因。
進一步的,步驟四中,以差異表達基因在樣本中的基因表達數據為基礎,進行兩兩基因的皮爾森相關分析;設置限定條件對得到的所有關系進行篩選,將滿足限定條件的兩個基因視為存在共表達關系;將所有存在共表達關系的基因及其關系用一張圖進行表示,即得到基因共表達網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林省蒲川生物醫藥有限公司,未經吉林省蒲川生物醫藥有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210040488.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種水果飲料加工用破碎機
- 下一篇:一種碳酸飲料加工用充氣裝置





