[發明專利]基于改進XGBoost的泛癌癥基因通路預測方法、系統和存儲介質在審
| 申請號: | 202010041366.9 | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111243662A | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 阿麗瑪;劉朝銳;張玉;周維 | 申請(專利權)人: | 云南大學 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/50;G16B40/20 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 陽佑虹 |
| 地址: | 650091 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改進 xgboost 癌癥 基因 通路 預測 方法 系統 存儲 介質 | ||
本發明公開了一種基于改進XGBoost的泛癌癥基因通路預測方法、系統和存儲介質,該方法利用訓練數據集對改進XGBoost模型進行訓練,至模型收斂;其中,改進的XGBoost模型為在XGBoost模型基礎上,增加了閾值選擇流程,閾值用于控制正負樣本的分類邊界,閾值選擇流程根據分類指標對閾值進行調整。本發明以樹形結構XGBoost為基礎,通過分裂節點選取的方式,解決了生物數據連續值中異常值的問題,同時解決因數據預處理帶來的數據分類邊界偏移的問題;支持交叉驗證,可通過提前停止來獲得最優的訓練效果。創新的改進XGBoost,增加閾值控制,解決因類別數據樣本不平衡帶來的權重偏移問題,提升預測的AUROC和AUPR值,使分類效果達到更優。
技術領域
本發明涉及生物基因領域,尤其是一種基于改進XGBoost的泛癌癥基因通路預測方法、系統和存儲介質。
背景技術
根據TCGA基因表達數據預測泛癌癥基因通路,能夠對癌癥進行早期診斷,并發現基因表達和癌癥通路激活之間的關系,提出一個泛癌癥基因通路分析算法XBPCPA,利用機器學習XGBoost算法,對9000多個樣本1.8億多個特征點進行數據整合,挖掘分析了泛癌癥基因表達對通路激活情況的影響。設計了閾值控制超參數對正負樣本的分類邊界進行控制,解決數據中樣本不平衡的問題,提升分類評估參數AUC和AUPR。對比實驗表明,XBPCPA算法對癌癥通路預測具有較高的泛化性能。
泛癌癥(Pan-Cancer)包含了人類33種常見的癌癥,癌癥基因圖譜(TheCancerGenome?Atlas,TCGA)是由美國國家人類基因組和美國國家癌癥研究所共同完成收集33種常見的癌癥11000多個腫瘤樣本基因數據的項目(https://cancergenome.nih.gov/),本實驗根據TCGA上的泛癌癥圖譜(PanCancerAtlas)的基因表達數據,數目變異數據對泛癌癥相關的基因通路進行預測,并在此基礎上對不同的基因的表達對基因通路的激活的貢獻程度進行排序,在預測的通路的同時得出與該通路相關的基因及其表達情況。
對RAS通路和P53通路進行了實驗和驗證可以發現,RAS通路在大部分的癌癥中發生了改變,當RAS通路被激活,通常是發生了數目變異,其中包括增加模式變異(KRAS,NRAS和HRAS變異)和丟失模式變異(NF1變異)。諸如胰腺癌,皮膚黑色素瘤,甲狀腺癌,肺腺癌等癌癥類型確定有RAS基因通路變異引發的。除此之外,RAS通路的變異被證實是癌癥發生的早期事件。RAS通路變異引發的癌癥較難治療,準確的預測和定位引發RAS通路激活的條件對后續的治療至關重要。P53通路是目前已知和癌癥相關程度最高的基因,在已知的大量癌癥中,發現P53的變異和異常表達。P53更是被作為癌癥診斷的標志,準確的預測無疑會更早的發現并進行相應的治療。
2018年,Gregory?P.Wa在《cell?report》上的文章《Machine?learning?detectspan-cancer?ras?pathway?activation?in?the?cancer?genome?atlas》,使用記憶型算法邏輯回歸,對RAS通路進行預測,在該方法中,5迭交叉驗證的擬合能力表現AUROC為0.86,AUPR為0.61,在新數據集上的泛化能力表現AUROC為0.76,AUPR為0.58。但是該方法泛化能力低,不能用于除RAS通路的其他通路。并且方法的評估參數AUROC,AUPR并未達到數據的理論上限。
發明內容
本發明的發明目的在于:針對上述存在的問題,提供一種針對泛癌癥基因通路的泛化性能強,用于多種數據類型和預測多種泛癌癥基因通路的方法。本發明以樹形結構XGBoost為基礎,通過分裂節點選取的方式,解決了生物數據連續值中異常值的問題,同時解決因數據預處理帶來的數據分類邊界偏移的問題;支持交叉驗證,可通過提前停止來獲得最優的訓練效果。創新的改進XGBoost,增加閾值控制,解決因類別數據樣本不平衡帶來的權重偏移問題,提升預測的AUROC和AUPR值,使分類效果達到更優。
本發明采用的技術方案如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云南大學,未經云南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010041366.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可短期降解醫用鎂合金及其制備方法
- 下一篇:一種全方位多軸攻絲裝置





