[發明專利]基于改進XGBoost的泛癌癥基因通路預測方法、系統和存儲介質在審
| 申請號: | 202010041366.9 | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111243662A | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 阿麗瑪;劉朝銳;張玉;周維 | 申請(專利權)人: | 云南大學 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/50;G16B40/20 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 陽佑虹 |
| 地址: | 650091 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改進 xgboost 癌癥 基因 通路 預測 方法 系統 存儲 介質 | ||
1.一種基于改進XGBoost的泛癌癥基因通路預測方法,其特征在于,包括以下步驟:
利用訓練數據集對改進XGBoost模型進行訓練,至模型收斂,所述訓練數據集,為獲取的癌癥樣本數據,各癌癥樣本對應于所屬的癌癥類型;其中,改進的XGBoost模型為在XGBoost模型基礎上,增加了閾值選擇流程,所述閾值用于控制正負樣本的分類邊界,所述閾值選擇流程根據分類指標對閾值進行調整;根據分類指標對閾值進行調整的過程包括:以0.5作為基準閾值,對正負樣本區間進行預測,計算AUROC,根據計算結果對閾值進行調整。
2.如權利要求1所述的基于改進XGBoost的泛癌癥基因通路預測方法,其特征在于,所述利用訓練數據集對改進XGBoost模型進行訓練的方法具體包括:將訓練數據集使用改進XGBoost模型訓練,利用K折交叉驗證訓練所述改進XGBoost模型。
3.如權利要求2所述的基于改進XGBoost的泛癌癥基因通路預測方法,其特征在于,所述分類指標為ROC-AUC。
4.如權利要求2所述的基于改進XGBoost的泛癌癥基因通路預測方法,其特征在于,所述利用K折交叉驗證訓練所述改進XGBoost模型過程中,調整的參數包括迭代次數、生成樹的最大深度、下采樣系數、正則化系數和學習率。
5.如權利要求2所述的基于改進XGBoost的泛癌癥基因通路預測方法,其特征在于,所述K=5。
6.如權利要求1所述的基于改進XGBoost的泛癌癥基因通路預測方法,其特征在于,所述訓練數據集的準備過程包括:
將數目變異矩陣和基因表達矩陣根據樣本ID進行合并;使用樣本的突變數據打上標簽;其中,數目變異矩陣和基因表達矩陣由RNA-seq、拷貝數和突變數據對應錄入生成;
對合并后的矩陣進行預處理,所述預處理包括過濾步驟,以最終得到訓練數據集。
7.如權利要求6所述的基于改進XGBoost的泛癌癥基因通路預測方法,其特征在于,所述對合并后的矩陣進行預處理的步驟包括:根據樣本ID整合表達數據和變異數據,過濾患者數據量未達預定數量的癌癥類別。
8.一種計算機可讀存儲介質,其存儲有計算機程序,其特征在于,運行該計算機程序可執行如權利要求1~7任一所述的基于改進XGBoost的泛癌癥基因通路預測方法。
9.一種基于改進XGBoost的泛癌癥基因通路預測系統,其特征在于,包括處理器和如權利要求8所述的計算機可讀存儲介質,所述處理器用于運行所述計算機可讀存儲介質中存儲的計算機程序,以運行基于改進XGBoost的泛癌癥基因通路預測方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云南大學,未經云南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010041366.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可短期降解醫用鎂合金及其制備方法
- 下一篇:一種全方位多軸攻絲裝置





