[發明專利]一種面向基因表達與甲基化數據的融合方法有效
| 申請號: | 201711204711.0 | 申請日: | 2017-11-27 |
| 公開(公告)號: | CN107967410B | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 凡時財;魯文斌;鄒見效;徐紅兵 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G16B50/00 | 分類號: | G16B50/00;G16B40/00;G16B25/10 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 溫利平 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 基因 表達 甲基化 數據 融合 方法 | ||
1.一種面向基因表達與甲基化數據的融合方法,其特征在于,包括以下步驟:
(1)、數據的獲取
從癌癥基因組圖譜數據庫中獲取多種癌癥的基因表達數據和450K芯片測得的DNA甲基化數據;
(2)、DNA甲基化數據的處理
(2.1)、DNA甲基化數據的預處理:將DNA甲基化數據中存在缺失值的CpG位點刪除;
(2.2)、DNA甲基化數據的擴展:利用logistic回歸模型對步驟(2.1)處理后的DNA甲基化數據進行了擴展,得到DNA甲基化圖譜數據,得到DNA甲基化圖譜數據;
(2.3)、單個CpG位點甲基化數據的t假設檢驗
(2.3.1)、計算t假設檢驗后的每一個CpG位點的極值概率gm
設DNA甲基化圖譜數據中有n1個正常樣本數據和n2個癌癥樣本數據,那么某一個CpG位點p*在n1個正常樣本數據中的甲基化水平為W1,其均值為在n2個癌癥樣本數據中的甲基化水平為W2,其均值為對應的正態分布參數分別為和其中,μ1、μ2分別表示n1個正常樣本數據的均值和n2個癌癥樣本數據的均值,分別表示n1個正常樣本數據的方差和n2個癌癥樣本數據的方差;
設兩類樣本方差相等,即構造假設檢驗統計量S*,其中,n為DNA甲基化圖譜數據總個數;
給定顯著性水平α,求出t假設檢驗后的每一個CpG位點的極值概率gm:P{·}表示求極值概率,m=1,2,…,k,k表示DNA甲基化圖譜數據中CpG位點總個數;
(2.3.2)、判斷每一個CpG位點是否是差異甲基化位點
如果則該CpG位點p*在n1個正常樣本數據和n2個癌癥樣本數據中存在顯著性差異,即判定該CpG位點p*是差異甲基化位點,依次類推,得到所有的差異甲基化位點;
(2.4)、對所有的DNA甲基化位點進行聯合費雪檢驗
給定顯著性水平α1,同時確定差異甲基化位點在整個基因啟動子區的分布情況;
將t假設檢驗后的每一個CpG位點的極值概率gm利用如下公式進行綜合評估,得到假設檢驗統計量
將假設檢驗統計量與α1比較,如果則判定該基因為差異基因;否則舍去;
(3)、基因表達數據的預處理
(3.1)、缺失值處理
在基因表達數據中,將存在缺失值的基因表達數據刪除處理;
(3.2)、數據標準化
設步驟(3.1)處理后的基因表達數據為一n行p列的矩陣,表示為X=(xij)n×p,xij表示矩陣X的元素;
對矩陣X=(xij)n×p取對數處理,得到矩陣Yij=log2xij,i=1,2,…,n,j=1,2,…,p-1;
(3.3)、基因表達數據的特征選擇
對矩陣Yij中每一列作t假設檢驗:以矩陣Yij的每一列為單位,對矩陣Yij中正常樣本和癌癥樣本在每一列的平均數是否相等進行t假設檢驗,得到差異基因;
(4)、數據融合;
(4.1)、基因表達數據和DNA甲基化數據的融合
將步驟(2)得到的差異基因與通過步驟(3)得到的差異基因取交集,得到交疊基因;
(4.2)、基因通路分析
通過David在線工具對交疊基因的通路進行分析,在顯著富集通路里找出與癌癥、免疫相關的通路,用于DNA甲基化數據的擴展。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711204711.0/1.html,轉載請聲明來源鉆瓜專利網。





