[發明專利]基于共表達相似性搭建肺腺癌早期診斷模型有效
| 申請號: | 201711223597.6 | 申請日: | 2017-11-29 |
| 公開(公告)號: | CN109841281B | 公開(公告)日: | 2023-09-29 |
| 發明(設計)人: | 趙杰;李礪鋒;張超奇;薛文華;翟運開;范智蕊;張騰飛;丁顯飛;宋曉琴;沈志博;馬丙鈞;朱子家;梁淑紅 | 申請(專利權)人: | 鄭州大學第一附屬醫院 |
| 主分類號: | G16H50/20 | 分類號: | G16H50/20;G16H50/30 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 高姍 |
| 地址: | 450001 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 表達 相似性 搭建 腺癌 早期 診斷 模型 | ||
1.基于共表達相似性搭建肺腺癌早期診斷模型,其特征在于:包括以下步驟:
(1)數據重塑及分組:首先對肺癌數據根據樣本臨床信息進行分組,每個樣本臨床信息分為phaseI、phaseII、phaseIII、phaseIV四組,phaseI是早期,phase?II-phase?IV是中晚期;
(2)數據標準化:對數據進行標準化預處理,對于缺失值大于10%的基因和樣本進行剔除,其余存在缺失值的樣本用對應基因在其他樣本中的均值進行替換,以正常作為對照組,計算每個基因在對照組中的均值和標準差,然后對所有樣本實現Z值標準化,基因在對照組中的表達服從均值為0,方差為1的標準正態分布,因此若基因i在正常健康樣本以及早期或中晚期的肺腺癌樣本中不存在差異,則基因i的表達值服從正態分布,否則認為基因i在早期或中晚期肺癌樣本中相對于健康人群存在明顯差異;
(3)phase特異性基因提?。豪米儺愊禂祦碓u估基因在肺腺癌樣本中的波動情況,變異系數通過公式1計算,
其中,mean為基因在所有肺腺癌樣本中的表達均值,sd為對應的標準差,CV越大說明基因正向波動越顯著,CV越小說明基因負向波動越顯著,根據變異系數在所有基因中的分布,只篩選出變異系數在雙尾25%的基因作為和肺腺癌相關的基因,剩下的50%基因則由于在0附近存在較小的波動,因此認為和肺腺癌不相關,為了識別在肺腺癌早期即發生差異表達的基因,利用limma算法對于基因在對照組和早期患者中的表達情況進行顯著性評估,顯著性閾值為0.05且|logfc|1,識別出的早期肺腺癌相關基因標記為Δ0,同樣的,為了識別出在中晚期發生差異表達的基因,對對照組和中晚期的肺腺癌樣本進行比較分析,識別出中晚期肺腺癌相關基因標記為Δ1,而早期風險基因與中晚期風險基因的交集基因,則稱為既能實現早期診斷肺腺癌的特征,又是伴隨肺腺癌進展的重要臨床指標,標記為Δ2;
(4)基因共表達相關性分析:考察了在對照組,早期,中晚期三個階段下,早期風險基因Δ0和中晚期風險基因Δ1,以及交集基因Δ2的表達相關性,采用pearson相關系數,大于0.5的認為是正相關,低于-0.5的認為是負相關;
(5)無監督聚類分析:用相關性分析構建早期風險基因和中晚期風險基因的交集基因Δ2之間的相關系數矩陣,并利用層次聚類法實現對樣本和基因的無監督聚類;
(6)特異性和非特異性共表達網絡分析:利用基因在對照組,早期,中晚期三個階段的共表達模式進行特異性網絡構建,同時利用交集基因在所有樣本中穩定的共表達關系構建非特異性網絡,網絡構建用cytoscape軟件實現,并利用network?analysis插件進行網絡拓撲性質分析,正常樣本特異性網絡體現了基因之間的固有互作關系,早期肺癌特異性網絡體現了進入疾病初期基因之間共表達關系的異常,中晚期特異性網絡體現了隨著疾病進展,更多的基因關聯發生變異,整個網絡拓撲性質發生顯著差異,利用交集基因Δ2構建非特異性網絡,并進行拓撲性質分析,最后利用基因節點在網絡中的度分布來評價基因的重要性,度越高,說明基因發生異常表達時影響的周圍臨近基因越多,所有交集基因的度均通過公式2的sigmoid函數轉換為0-1的權重,公式2中的degree表示度,不在網絡中的基因權重默認為最小值,
(7)功能通路富集:利用交集基因Δ2進行功能富集分析,分析方法采用Fisher精確檢驗,獲得的顯著通路則為這些交集基因參與調控的功能;
(8)顯著變異通路識別:利用交集基因通過富集共獲得N個通路,首先識別每個通路基因庫中差異表達的基因,利用逆累積分布函數將ANOVA的P值轉化為Z值并乘上基因的權重,將通路中差異表達的基因Z值代入公式計算出通路的偏差得分A(Pj),計算公式如下公式3所示:
計算過程中,首先將差異表達的基因Z值從大到小排序,Z值越大,基因的差異表達程度越高,通路中包含k個差異表達基因,然后迭代的選取2個基因,3個基因…k個基因計算Z值均值,當迭代到第t步時(1tk),計算t個基因的Z值均值為最大值,則對應的t個基因對于通路的貢獻最大,計算出通路在疾病狀態下的偏差得分A(Pj);
(9)RFE算法篩選早篩標識基因:利用recursive?feature?elimination算法對基因進行特征選擇,最后篩選出顯著的肺癌風險相關基因用于訓練診斷預測模型;
(10)基于早篩風險基因建立分類模型:利用有監督分類算法支持向量機構建診斷分類模型,模型初始化參數包括核函數采用rbf非線性核,gamma為0,其他參數均采用默認參數,結合gridsearch進行參數優化,求解最優參數組合,并用五倍交叉驗證繪制ROC曲線,評價模型分類效能;
(11)生存分析驗證:從TCGA數據庫下載肺腺癌樣本作為獨立驗證數據,并利用coxregression分析風險基因與肺腺癌樣本整體生存期的相關性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州大學第一附屬醫院,未經鄭州大學第一附屬醫院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711223597.6/1.html,轉載請聲明來源鉆瓜專利網。





