[發明專利]一種面向基因表達與甲基化數據的融合方法有效
| 申請號: | 201711204711.0 | 申請日: | 2017-11-27 |
| 公開(公告)號: | CN107967410B | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 凡時財;魯文斌;鄒見效;徐紅兵 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G16B50/00 | 分類號: | G16B50/00;G16B40/00;G16B25/10 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 溫利平 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 基因 表達 甲基化 數據 融合 方法 | ||
本發明公開了一種面向基因表達與甲基化數據的融合方法,先從癌癥基因組圖譜數據庫中獲取某癌癥的基因表達數據和450K芯片測得的DNA甲基化數據,然后分別對基因表達數據和DNA甲基化數據進行預處理,得到各自的差異基因,然后對兩種差異基因求交集,得到交疊基因,最后通過David在線工具對交疊基因的通路進行分析,在顯著富集通路里找出與癌癥、免疫相關的通路,用于DNA甲基化數據的擴展,從而獲得更多數量的全基因組CpG位點。
技術領域
本發明屬于生物多組學數據的融合技術領域,更為具體地講,涉及一種面向基因表達與甲基化數據的融合方法。
背景技術
基于單一組學數據的信息挖掘方法較難系統全面地理解疾病的產生和發展過程,融合多組學數據對癌癥的發生、發展過程進行研究,可以避免單一組學數據的片面性,它不僅對疾病機理研究、確定致病靶點起到推動作用,也為疾病基礎科學和精準醫學研究提供了新的思路。
目前對于基因表達數據以及DNA甲基化數據的融合分析,主要基于450K甲基化芯片的數據。由于450K芯片數據僅覆蓋了人類全基因組CpG位點的2%,融合的分析結果很可能不可靠。
因此,基于具有更大覆蓋范圍的DNA甲基化數據進行融合分析具有重要意義。
發明內容
本發明的目的在于克服現有技術的不足,提供一種面向基因表達與甲基化數據的融合方法,通過基因表達數據和DNA甲基化數據的融合,可以更全面地找到相關癌癥基因,提供更可靠的診斷和治療癌癥的指導。
為實現上述發明目的,本發明一種面向基因表達與甲基化數據的融合方法,其特征在于,包括以下步驟:
(1)、數據的獲取
從癌癥基因組圖譜數據庫中獲取多種癌癥的基因表達數據和450K芯片測得的DNA甲基化數據;
(2)、DNA甲基化數據的處理
(2.1)、DNA甲基化數據的預處理:將DNA甲基化數據中存在缺失值的CpG位點刪除;
(2.2)、DNA甲基化數據的擴展:利用logistic回歸模型對步驟(2.1)處理后的DNA甲基化數據進行了擴展,得到DNA甲基化圖譜數據;
(2.3)、單個CpG位點甲基化數據的t假設檢驗
(2.3.1)、計算t假設檢驗后的每一個CpG位點的極值概率gm
設DNA甲基化圖譜數據中有n1個正常樣本數據和n2個癌癥樣本數據,那么某一個CpG位點p*在n1個正常樣本數據中的甲基化水平為W1,其均值為在n2個癌癥樣本數據中的甲基化水平為W2,其均值為對應的正態分布參數分別為和其中,μ1、μ2分別表示設定的正常樣本數據的均值和設定的癌癥樣本數據的均值,分別表示設定的正常樣本數據的方差和設定癌癥樣本數據的方差;
設兩類樣本方差相等,即構造假設檢驗統計量S*,其中,n為DNA甲基化圖譜數據總個數;
給定顯著性水平α,求出t假設檢驗后的每一個CpG位點的極值概率gm:k表示DNA甲基化圖譜數據中CpG位點總個數;
(2.3.2)、判斷每一個CpG位點是否是差異甲基化位點
如果則該CpG位點p*在n1個正常樣本數據和n2個癌癥樣本數據中存在顯著性差異,即判定該CpG位點p*是差異甲基化位點,依次類推,得到所有的差異甲基化位點;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711204711.0/2.html,轉載請聲明來源鉆瓜專利網。





