[發(fā)明專利]一種基于決策樹和改進(jìn)SMOTE算法的哮喘病診斷系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110302072.1 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN112951413B | 公開(公告)日: | 2023-07-21 |
| 發(fā)明(設(shè)計(jì))人: | 劉志鋒;馬芽;崔玉寶;陳文;夏莉敏;周從華 | 申請(專利權(quán))人: | 江蘇大學(xué) |
| 主分類號: | G16H50/20 | 分類號: | G16H50/20;G16H50/70;G06F18/23213 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 212013 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 決策樹 改進(jìn) smote 算法 哮喘病 診斷 系統(tǒng) | ||
1.一種基于決策樹和改進(jìn)SMOTE算法的哮喘病診斷系統(tǒng),其特征在于,包括數(shù)據(jù)采集與處理模塊、過采樣處理模塊、決策樹訓(xùn)練模塊、檢測模塊和診斷應(yīng)用模塊;所述數(shù)據(jù)采集與處理模塊用于采集血常規(guī)體檢數(shù)據(jù),并對采集的數(shù)據(jù)進(jìn)行缺失值清洗、填充缺失值內(nèi)容或重新取數(shù)、刪除內(nèi)容不符合數(shù)據(jù)、去除重復(fù)值或不合理值,保證數(shù)據(jù)之間的正確關(guān)聯(lián)性處理;離散數(shù)據(jù)進(jìn)行One-Hot編碼處理;將預(yù)處理后的數(shù)據(jù)輸入過采樣處理模塊;所述過采樣處理模塊用于對輸入的數(shù)據(jù)進(jìn)行處理,將PSO與SMOTE優(yōu)化算法處理平衡后的數(shù)據(jù)分為訓(xùn)練樣本集和驗(yàn)證樣本集兩組;所述決策樹訓(xùn)練模塊采用CART回歸樹算法搭建哮喘病診斷模型,使用MEP后剪枝算法計(jì)算誤差并進(jìn)行剪枝,避免欠擬合風(fēng)險(xiǎn);再利用訓(xùn)練樣本集進(jìn)行哮喘病診斷訓(xùn)練;所述檢測模塊用于加載訓(xùn)練好的哮喘病診斷模型,利用驗(yàn)證樣本集對訓(xùn)練好的哮喘病診斷模型進(jìn)行驗(yàn)證;所述診斷應(yīng)用模塊利用訓(xùn)練好的哮喘疾病診斷模型作為最終應(yīng)用模型,用于哮喘病的輔助診斷;
所述過采樣處理模塊包括以下步驟:
S2.1:采用K-means聚類算法對少數(shù)類樣本進(jìn)行聚類,形成固定K個(gè)簇并記錄下每一個(gè)簇心:
其中xi代表數(shù)據(jù)集中第i個(gè)數(shù)據(jù)樣本,ωj表示第j個(gè)聚類簇;zj表示第j個(gè)聚類簇的簇心;
S2.2:在少數(shù)類樣本與其最臨近n個(gè)樣本中選取m個(gè)采樣點(diǎn),采樣率使用PSO粒子群算法進(jìn)行優(yōu)化:
其中,b1和b2為加速常數(shù),前者為每個(gè)粒子的個(gè)體的個(gè)體學(xué)習(xí)因子,后者為每個(gè)粒子的社會學(xué)習(xí)因子,w代表慣性因子,其值為非負(fù),i表示第i個(gè)粒子,d表示粒子的第d個(gè)維度,v代表的是速度,x代表位置;r1,r2表示兩位位于[0,1]的隨機(jī)數(shù),pbest[i]是指粒子取得最高或最低適應(yīng)度的位置,gbest[i]是指整個(gè)系統(tǒng)取得最高或最低適應(yīng)度時(shí)的位置;
S2.3:選擇好原始點(diǎn)和采樣率之后,生成新的少數(shù)類樣本:
Xnew=X+rand(0,1)*(Mi-X),i=1,2,,,,N
其中,Xnew為新插入樣本;X為選擇的原始樣本數(shù)據(jù);rand(0,1)表示0與1之間的某一個(gè)隨機(jī)數(shù);Mi為原始樣本數(shù)據(jù)X的最臨近中通過PSO優(yōu)化后的最佳采樣點(diǎn);
S2.4:如果在樣本新樣本位置中,少數(shù)類樣本與多數(shù)類樣本的比例小于1/2,則保留樣本,否則重新插值生成新樣本;
S2.5:當(dāng)少數(shù)類樣本個(gè)數(shù)與多數(shù)類樣本個(gè)數(shù)達(dá)到平衡,結(jié)束循環(huán),否則繼續(xù)生成新樣本。
2.如權(quán)利要求1所述的基于決策樹和改進(jìn)SMOTE算法的哮喘病診斷系統(tǒng),其特征在于,所述數(shù)據(jù)采集與處理模塊包括數(shù)據(jù)采集和數(shù)據(jù)清洗,具體包括以下內(nèi)容:數(shù)據(jù)采集:獲取血常規(guī)數(shù)據(jù);
缺失值清洗:確定缺失值范圍,對每個(gè)字段計(jì)算缺失值比例,按照缺失值比例和字段重要性,采用以下的方式清洗:去除不需要字段、無意義的字段;填充缺失值的內(nèi)容或重新取數(shù);
格式內(nèi)容清洗:時(shí)間日期數(shù)值顯示格式、內(nèi)容中不該存在的字符、字段內(nèi)容與該字段應(yīng)有內(nèi)容不符;
邏輯錯(cuò)誤清洗:包括去重、去除不合理值、修正矛盾內(nèi)容;
非需求數(shù)據(jù)清洗:對不需要的字段進(jìn)行刪除處理;
關(guān)聯(lián)性驗(yàn)證:在數(shù)據(jù)來源于多張表或數(shù)據(jù)庫的情況下,保證數(shù)據(jù)之間關(guān)聯(lián)的正確性,防止數(shù)據(jù)之間出現(xiàn)關(guān)聯(lián)錯(cuò)誤或是互相矛盾的情況。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇大學(xué),未經(jīng)江蘇大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110302072.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種針對非均衡數(shù)據(jù)分類的改進(jìn)SMOTE再抽樣方法
- 基于EasyEnsemble算法和SMOTE算法的不均衡數(shù)據(jù)分類方法
- 一種基于AdaBoost-SO的VANETs車輛事故風(fēng)險(xiǎn)預(yù)測模型
- 基于SMOTE算法和集成學(xué)習(xí)的惡意流量檢測方法
- 基于K-means改進(jìn)的SMOTE算法
- 一種基于改進(jìn)SMOTE算法的非平衡數(shù)據(jù)集處理方法及系統(tǒng)
- 基于C-K-SMOTE算法的不平衡數(shù)據(jù)集處理方法
- 一種用于橫向聯(lián)邦學(xué)習(xí)的優(yōu)化方法
- 一種基于決策樹和改進(jìn)SMOTE算法的哮喘病診斷系統(tǒng)
- 一種解決不平衡分類問題的新型過采樣方法及系統(tǒng)





