[發明專利]一種基于測序和機器學習的構建疾病風險預測模型的方法和系統在審
| 申請號: | 202110348442.5 | 申請日: | 2021-03-31 |
| 公開(公告)號: | CN112992274A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 楊承剛;李雨晨 | 申請(專利權)人: | 青島泱深生物醫藥有限公司 |
| 主分類號: | G16B40/20 | 分類號: | G16B40/20;G16H50/30;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266000 山東省青島市嶗山區科苑緯*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 構建 疾病 風險 預測 模型 方法 系統 | ||
1.一種構建疾病風險預測模型的方法,其特征在于,包括:
獲取樣本測序數據;
對基因進行表達量定量,構建表達量矩陣;
基于MLseq工具進行模型訓練,選擇分類效果最佳的算法進行風險預測模型的訓練和構建;
優選地,所述方法還包括對測序數據進行處理和質控;
優選地,所述方法還包括將處理后的數據比對至人類參考基因組上;
優選地,所述方法還包括將臨床信息按照樣本分組信息進行特征標記;
優選地,所述方法還包括在模型訓練前將樣本隨機分為訓練集和測試集;
優選地,所述方法還包括對風險預測模型進行驗證,得到預測分類結果。
2.根據權利要求1所述的方法,其特征在于,所述模型訓練前還包括建模數據處理;優選地,建模數據處理包括特征剔除、批次效應校正;優選地,特征剔除的步驟包括:將所有基因單獨進行過濾,計算表達量為0的樣本數量,并統計其在總樣本數中所占的比例,剔除高于特定比例的特征;優選地,批次效應校正的步驟包括:將樣本的分組信息和批次標記信息保存為向量,對表達量矩陣、分組信息向量、批次標記信息向量進行矩陣建模,估計代表批次效應的參數,將原始數據映射到預期的分布,進而生成新的表達量矩陣;優選地,建模數據處理還包括離群樣本剔除;優選地,離群樣本剔除的步驟包括:進行主成分分析,將剔除批次效應的表達量矩陣作為參數傳入,進行數據的基因特征的維度映射,生成降低維度的主成分的數值矩陣,繪制PCA圖,刪除遠離群體的樣本;
優選地,所述表達量矩陣為M*N的基因表達量矩陣,表達量矩陣中的第i行第j列的數值表示第j個樣本對應第i個基因的表達量count值,其中1≤i≤M,1≤j≤N;M表示檢測基因的數量,N表示分析樣本的數量;優選地,表達量矩陣的定量標準類型為基因ID,優選地,構建表達量矩陣的步驟還包括合并數據集;優選地,利用基因ID合并數據集。
3.一種構建結直腸疾病風險預測模型的方法,其特征在于,包括:
獲取樣本測序數據;
對基因進行表達量定量,構建表達量矩陣;
基于MLseq工具進行模型訓練,選擇分類效果最佳的算法進行風險預測模型的訓練和構建;
優選地,所述方法還包括對測序數據進行處理和質控;
優選地,所述方法還包括將處理后的數據比對至人類參考基因組上;
優選地,所述方法還包括將臨床信息按照樣本分組信息進行特征標記;
優選地,所述方法還包括在模型訓練前將樣本分為訓練集和測試集;
優選地,所述方法還包括對風險預測模型進行驗證,得到預測分類結果
獲取數據:獲取樣本的測序數據;
優選地,所述測序數據來源于TCGA數據庫和SRA數據庫;
優選地,所述模型訓練前還包括建模數據處理;
優選地,建模數據處理包括特征剔除、批次效應校正;
優選地,特征剔除的步驟包括:使用featurefilter函數將所有基因單獨進行過濾,計算表達量為0的樣本數量,并統計其在總樣本數中所占的比例,剔除高于特定比例的特征;優選地,所述特定比例為0.05;
優選地,批次效應校正的步驟包括:將樣本的分組信息和批次標記信息保存為向量,對表達量矩陣、分組信息向量、批次標記信息向量進行矩陣建模,估計代表批次效應的參數,將原始數據映射到預期的分布,進而生成新的表達量矩陣;優選地,批次校正的函數為ComBat-Seq函數;
優選地,建模數據處理還包括離群樣本剔除;優選地,離群樣本剔除的步驟包括:進行主成分分析,將剔除批次效應的表達量矩陣作為參數傳入,進行數據的基因特征的維度映射,生成降低維度的主成分的數值矩陣,繪制PCA圖,刪除遠離群體的樣本;
優選地,所述表達量矩陣為M*N的基因表達量矩陣,表達量矩陣中的第i行第j列的數值表示第j個樣本對應第i個基因的表達量count值,其中1≤i≤M,1≤j≤N;M表示檢測基因的數量,N表示分析樣本的數量;
優選地,表達量矩陣的定量標準類型為基因ID,
優選地,表達量矩陣的定量模式為intersection-nonempty;
優選地,構建表達量矩陣還包括合并數據集;優選地,利用基因ID合并數據集;
優選地,臨床信息處理的步驟包括:
stage特征中I、IA、IB標記為TNM1;II、IIA、IIB、IIC標記為TNM2;III、IIIA、IIIB、IIIC標記為TNM3;IV、IVA、IVB標記為TNM4;
stage字段重命名為subclass;
腸道息肉樣本的subtype字段重命名為subclass,并標記為polyps;
無患病正常樣本的subtype字段重命名為subclass,并標記為normal;
添加字段source,標記樣本來源TCGA或者是SRA。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島泱深生物醫藥有限公司,未經青島泱深生物醫藥有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110348442.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種預測早期結直腸癌風險評估模型及系統
- 下一篇:一種線控縱向折疊盒及自行車





