[發明專利]一種基于機器學習方法的重癥胰腺炎預測模型構建方法有效
| 申請號: | 202111484319.2 | 申請日: | 2021-12-07 |
| 公開(公告)號: | CN114141363B | 公開(公告)日: | 2023-09-12 |
| 發明(設計)人: | 肖波;何汶靜;祝元仲;魏佳苡;汪劉;趙艷梅 | 申請(專利權)人: | 川北醫學院附屬醫院;川北醫學院 |
| 主分類號: | G16H50/20 | 分類號: | G16H50/20;G16H50/70 |
| 代理公司: | 成都佳劃信知識產權代理有限公司 51266 | 代理人: | 任遠高 |
| 地址: | 637000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習方法 重癥 胰腺炎 預測 模型 構建 方法 | ||
1.一種基于機器學習方法的重癥胰腺炎預測模型構建方法,其特征在于,構建步驟如下:
S1、獲取預測對象出院診斷結果及臨床相關數據,并對所獲取數據進行預處理;
S2、篩選預處理后的數據并進行數據分箱,將分箱后的數據與未分箱的數據進行組合;所述的數據分箱為數值或類別取值出現數不超過10個的變量作為不分箱數據,其它變量進行數據等距分箱,分箱個數為12個;
S3、通過分箱后的數據與未分箱后的數據建立多個重癥胰腺炎預測模型并進行比較選出優秀的模型,同時構建預測受試者工作特征曲線;
S4、對選定模型進行預訓練并篩選對模型貢獻度最大的10個特征指標,利用預訓練模型篩選的10個對模型貢獻度最大的特征指標進行再次訓練;
S5、根據受試者工作特征曲線的最大約登指數敏感性加特異性來確認評價重癥胰腺炎和非重癥胰腺炎模型的閾值范圍,根據確定出的閾值得到最終的模型的參數范圍,從而確定最終參數固定的模型,并進行預測。
2.根據權利要求1所述的一種基于機器學習方法的重癥胰腺炎預測模型構建方法,其特征在于,所述S1中,出院診斷結果及臨床相關數據包括病人的基本信息、病人出院診斷結果、實驗室檢查數據。
3.根據權利要求2所述的一種基于機器學習方法的重癥胰腺炎預測模型構建方法,其特征在于,所述S1中,數據預處理方法如下;
1)、數值型變量歸一化處理,歸一化公式如下:
Xnnormalized=(Xn–Xmin)/(Xmax–Xmin);
Xn表示任一數值型變量,Xnnormalized表示數值型變量Xn的歸一化后的值,Xmax表示數值型變量中的最大值,Xmin表示數值型變量中的最小值;
2)、記錄類別型變量,包括尿顏色和透明度,按嚴重程度編碼;
3)、去掉缺失或變化不大的指標包括①去掉缺失值超過90%的特征;②去掉取值無變化,或95%的取值無變化的特征。
4.根據權利要求1所述的一種基于機器學習方法的重癥胰腺炎預測模型構建方法,其特征在于,所述S2中,所述的數據分箱為數值或類別取值出現數不超過10個的變量作為不分箱數據,其它變量進行數據等距分箱,分箱個數為12個。
5.根據權利要求1所述的一種基于機器學習方法的重癥胰腺炎預測模型構建方法,其特征在于,所述S3中,篩選重癥胰腺炎數據預測模型的方法如下:
(1)將分箱數據和未分箱數據組合構成數據集1;
(2)采用KNN算法填充數據集1中的缺失值,構成數據集2;
(3)通過lasso回歸對數據集2篩選出的指標進一步精篩選得數據集3;
(4)用數據集3劃分出訓練集和測試集;
(5)將訓練樣本集輸入到8種待選預測模型中,完成待選模型的訓練;
(6)將測試樣本集輸入到8種待選預測模型中,輸出待選模型預測的概率值;
(7)根據待選模型預測的概率值建立8條預測受試者工作特征曲線ROC;
(8)比較ROC曲線下面積AUC,選出最優模型是分布式梯度提升分類器LightGBM。
6.根據權利要求5所述的一種基于機器學習方法的重癥胰腺炎預測模型構建方法,其特征在于,所述8種待選預測模型由以下方法構建①邏輯回歸分類器LR、②高斯分布樸素貝葉斯分類器GNB、③多項式分布樸素貝葉斯分類器MNB、④支持向量機分類器SVC、⑤K近鄰分類器KNN、⑥決策樹分類器DTC、⑦隨機森林分類器RF、⑧分布式梯度提升分類器LightGBM。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于川北醫學院附屬醫院;川北醫學院,未經川北醫學院附屬醫院;川北醫學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111484319.2/1.html,轉載請聲明來源鉆瓜專利網。





