[發明專利]一種基于體檢數據建模的空腹血糖預測方法有效
| 申請號: | 201610065891.8 | 申請日: | 2016-01-31 |
| 公開(公告)號: | CN107194138B | 公開(公告)日: | 2023-05-16 |
| 發明(設計)人: | 紀俊;于濱;肖文翔;王嵩;朱易辰 | 申請(專利權)人: | 北京萬靈盤古科技有限公司 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G16H50/30;G16H50/20 |
| 代理公司: | 深圳舍穆專利代理事務所(特殊普通合伙) 44398 | 代理人: | 黃賢炬 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 體檢 數據 建模 空腹 血糖 預測 方法 | ||
1.一種基于體檢數據建模的空腹血糖預測方法,其特征在于:其包括以下步驟:
步驟1:數據選擇與處理;包括從海量體檢數據中提取關鍵信息以及對數據的清洗和轉換;
步驟2:數據集的建立;對處理后的數據進行特征構建,每行表示為一個人的體檢記錄,每列表示一項體檢項特征,得到包含所有特征集合的數據集dataset1;
步驟3:重要特征選取;按以下步驟進行:
(3.1)利用隨機森林方法對特征集合中的每一個特征計算其特征重要性,并據此計算體檢項重要性得分;
(3.2)結合序列后向選擇算法:從dataset1全部特征集合s開始,對s對應訓練集進行建模,并計算其在測試集上AUC,然后去掉得分最低的體檢項對應特征,建模并計算在測試集上AUC,直至特征集合s中只含有一個體檢項,選取具有最大AUC值的特征集合為最優特征集合optimalset;
步驟4:血糖預測模型構建與評價,其步驟如下:
(4.1)使用隨機劃分的方式,將最優特征集合optimalset對應的最優數據集optimaldataset
按比例分割為訓練集Xtrain和測試集Xtest;
(4.2)使用包含大量決策樹的隨機森林擬合訓練集Xtrain,每棵決策樹使用數據由原數據隨機抽取,決策樹生成過程中,每個分割節點從全部特征集合中隨機選擇p個特征,從中選擇最佳劃分特征;
隨機森林生成后,血糖預測值是各決策樹血糖預測值的均值,此時,血糖預測的回歸模型建立完畢;
(4.3)根據模型對測試集Xtest進行預測,得到未來一年的空腹血糖預測值,以該值減體檢者上一年的空腹血糖值,差值為正說明預測該體檢者空腹血糖上升,差值為負說明該體檢者空腹血糖下降,得到關于體檢者空腹血糖變化的預測,空腹血糖變化上升表示為1,下降表示為0,差值表示預測得分;
(4.4)根據測試集,使用體檢者第四年空腹血糖減第三年空腹血糖,得到體檢者真實空腹血糖變化,將其轉化為0-1表示;
(4.5)根據預測得分和體檢者真實數據變化的0-1表示,通過ROC曲線對應的AUC值,對模型性能進行評價;
步驟5:空腹血糖變化預測的概率化打分:
(5.1)將最優特征集合optimalset對應的最優數據集optimaldataset劃分為訓練集、測試集、驗證集三部分;
(5.2)使用訓練集結合隨機森林方法建立空腹血糖值預測模型,使用測試集計算不同概率化打分對應閾值,預測驗證集的概率化打分;
(5.3)結合驗證集概率化打分,選定概率化得分80分以上體檢者為血糖變化概率較大人群,基于選定的閾值,驗證模型表現。
2.根據權利要求1所述的一種基于體檢數據建模的空腹血糖預測方法,其特征在于:步驟1中數據的清洗和轉換包括:對殘缺、錯誤數據,將其值置為空;對重復數據進行刪除;格式不標準數據,通過數值編碼方式統一處理為數值格式。
3.根據權利要求1所述的一種基于體檢數據建模的空腹血糖預測方法,其特征在于:步驟(3.2)中,按如下步驟進行:
A.使用體檢項重要性計算過程中得到的體檢項重要性得分,對體檢項按照得分高低進行重要性排序;
B.根據全部特征s對應數據集,使用隨機森林訓練模型,并計算相應的AUC值;
C.從體檢項集合中,去掉得分最低體檢項對應的特征,使用余下特征對應數據集訓練隨機森林模型,并計算相應的AUC值;
D.重復步驟C,直至體檢項集合只包含一個體檢項;
E.根據上述步驟,得到對應最優AUC值的體檢項集合,進一步得到最優的特征集合optimalset;
F.根據以上過程得到的最優特征集合optimalset,對應數據集可以得到最優模型。
4.根據權利要求1所述的一種基于體檢數據建模的空腹血糖預測方法,其特征在于:步驟1中提取的關鍵信息為不同體檢者不少于三年的體檢信息。
5.根據權利要求4所述的一種基于體檢數據建模的空腹血糖預測方法,其特征在于:步驟1中提取的關鍵信息包括人口統計學信息、血常規檢測、血生化檢測、尿常規檢測、內科、心電圖科目下的一種或多種信息。
6.根據權利要求5所述的一種基于體檢數據建模的空腹血糖預測方法,其特征在于:步驟1中提取的關鍵信息包括:
空腹血糖、年齡、腰圍、體重、身腰比、體重指數、尿糖、尿素、肌酐、脂肪肝、AST/ALT、血清天門冬氨酸氨基轉移酶、血清丙氨酸氨基轉移酶、紅細胞分布寬度、紅細胞比積、平均血紅蛋白濃度、血清甘油三酯、血檢-紅細胞、紅細胞平均體積、身高、血清低密度脂蛋白膽固醇、血清高密度脂蛋白膽固醇、中性粒細胞總數、平均血紅蛋白含量、血液比重、中性粒細胞百分數、收縮壓、淋巴細胞百分數、血檢-白細胞、血小板分布寬度、舒張壓、性別、淋巴細胞總數、血小板數、尿酸堿度、血清總膽固醇、平均血小板體積、尿酮體、尿檢-紅細胞、裂隙燈、雙下肢水腫、亞硝酸鹽、尿膽紅素、心電圖、心率、尿檢-白細胞、尿膽原、尿蛋白。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京萬靈盤古科技有限公司,未經北京萬靈盤古科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610065891.8/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





