[發明專利]一種基于雙重特征選擇和XGBoost算法的心臟病預測方法有效
| 申請號: | 202010052452.X | 申請日: | 2020-01-17 |
| 公開(公告)號: | CN111243751B | 公開(公告)日: | 2022-04-22 |
| 發明(設計)人: | 孫昊;崔子超 | 申請(專利權)人: | 河北工業大學 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G16H50/30;G06K9/62 |
| 代理公司: | 天津翰林知識產權代理事務所(普通合伙) 12210 | 代理人: | 張國榮 |
| 地址: | 300130 天津市紅橋區*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 雙重 特征 選擇 xgboost 算法 心臟病 預測 方法 | ||
本發明公開一種基于雙重特征選擇和XGBoost算法的心臟病預測方法,該方法先對原始數據進行處理,把處理好的數據通過隨機森林算法和特征相關性分析,根據特征的重要性排序和特征之間以及特征與樣本標簽之間的相關性計算出特征指數,選擇特征進行模型的訓練,克服了現有心臟病預測需要較多特征并且精確度欠缺的缺陷。
技術領域
本發明屬于醫療數據分析技術領域,特別涉及一種基于雙重特征選擇和XGBoost算法的心臟病預測方法。
背景技術
心臟病是一種生活中常見又比較嚴重的心血管疾病。心血管疾病是我國乃至全球人民健康的最大威脅之一,這種疾病已經給我國醫療系統帶來了嚴重的負擔。著名雜志《柳葉刀》曾發布的《全球疾病負擔報告2013》評估了1990年到2013年之間190個國家的患者死亡情況。其中指出了冠心病、慢性肺病、腦猝死是中國人最大的三種疾病,當年的死亡率高達46%,并且這個數字還在不斷地增長。我們可以根據現有的醫療數據,訓練心臟病預測模型,為患者提供健康指導。目前在心臟病預測的方法有:
1、使用支持向量機(SVM)對患者是否患心臟病進行預測。如研究人員A.Gavhane等(A.Gavhane,G.Kokkula,I.Pandya,P.K.Devadkar.Prediction of Heart Disease UsingMachine Learning[C].2018Second International Conference on Electronics,Communication and Aerospace Technology(ICECA),2018:1275-1278.)提出一種基于支持向量機的心臟病預測模型。但是SVM算法確定核函數困難,并且在訓練模型時需要消耗較大的空間和時間。
2、使用決策樹算法訓練模型,對患者是否患病進行預測。如研究人員A.J.Aljaaf等人(A.J.Aljaaf;D.Al-Jumeily;A.J.Hussain;T.Dawson;P Fergus;M.Al-Jumaily,Predicting the likelihood of heart failure with a multi level risk assessmentusing decision tree[C],2015Third International Conference on TechnologicalAdvances in Electrical,Electronics and Computer Engineering(TAEECE),2015:101-106.)提出了使用決策樹訓練模型進行預測,但決策樹很容易受異常值影響,并且容易過擬合。
3、使用多個簡單分類器進行集成進行多數投票。研究人員M.Shouman(M.Shouman,T.Turner,R.Stocker,Using data mining techniques in heart disease diagnosisand treatment[C].Japan-Egypt Conference on Electronics,Communications andComputers.2012,173-177.)結合了決策樹、貝葉斯分類器和支持向量機算法,訓練出一個基于所屬投票的新型分類器,但是并沒有得到更好的泛化性。
4、任昊星發明了一種心臟病風險預測系統(CN 109377470 A),該系統用到患者心臟醫學圖像,對心臟超聲視頻進行標識分類、心肌形狀特征向量提取、心電圖特征提取等,然用這些特征訓練深度神經網絡。但是該系統處理的心臟超聲視頻,需要有大量的案例,并且特征標識和提取過程困難、訓練模型對機器要求高,整體實現困難。
5、袁曉銘提出一種基于Bagging-Fuzzy-GBDT算法的心臟病預測方法(CN110265146 A),該方法了利用模糊邏輯對一些數據進行模糊化,然后將模糊化的數據與GBDT算法結合,并利用Bagging算法進行m次的又放回采樣,增加數據多樣性。但是GBDT算法只采樣分類與回歸樹(CART)作為基分類器,相對XGBoost算法基分類器選擇單一,并且無法對缺失值進行處理,易于過擬合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河北工業大學,未經河北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010052452.X/2.html,轉載請聲明來源鉆瓜專利網。





