[發明專利]一種基于特征權重的LARS糖尿病預測方法在審
| 申請號: | 201910340600.5 | 申請日: | 2019-04-25 |
| 公開(公告)號: | CN110060781A | 公開(公告)日: | 2019-07-26 |
| 發明(設計)人: | 高秀娥;陳波;陳世峰;桑海濤;胡玲艷 | 申請(專利權)人: | 嶺南師范學院 |
| 主分類號: | G16H50/50 | 分類號: | G16H50/50;G06F17/18;G06F17/16 |
| 代理公司: | 廣州市南鋒專利事務所有限公司 44228 | 代理人: | 李慧 |
| 地址: | 524000 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 向量 糖尿病 特征權重 殘差 糖尿病預測模型 回歸系數向量 相關度 擬合 自變量 數據集矩陣 糖尿病預防 醫療信息化 最大相關度 單位向量 關鍵特征 初始化 歸一化 容忍度 數據集 指標集 預測 范數 篩選 重復 更新 治療 | ||
本發明涉及醫療信息化技術領域,公開了一種基于特征權重的LARS糖尿病預測方法,具體包括以下步驟:步驟1,歸一化糖尿病數據集矩陣,初始化當前擬合值向量和殘差向量;步驟2,計算自變量特征權重向量和原始相關度向量;步驟3,計算單位向量、回歸系數向量、新相關度向量和最大相關度;步驟4,更新回歸系數向量,擬合值向量、殘差向量和指標集;步驟5,判斷殘差向量的L2范數是否小于容忍度,若是則結束,若否則重復步驟3到5,本發明從糖尿病數據集特征出發,篩選出糖尿病關鍵特征變量,簡化了糖尿病預測模型;提高了糖尿病預測模型的準確性,從而有助于提供準確的糖尿病預防與治療措施。
技術領域
本發明涉及醫療信息化技術領域,具體涉及一種基于特征權重的 LARS糖尿病預測方法。
背景技術
隨著糖尿病預測模型的數據特征越來越多、數據維數越來越大,預測模型也變得越來越復雜,傳統預測方法難于直接應用于糖尿病的預測中。
數據特征與數據維數的增加使得神經網絡預測模型的訓練時間復雜度增加、決策樹和邏輯回歸預測模型的預測準確率和泛化能力降低、支持向量機預測模型難以直接找到關鍵特征,這對糖尿病預測模型提出了新的挑戰。
lasso模型具有回歸分類準確率高、泛化能力強等優點,但由于傳統的最小角回歸LARS算法在求解Lasso回歸系數時存在逼近速度慢且準確度不高的問題,因此難以實現將LARS算法用于糖尿病預測。
發明內容
本發明的目的是在于提供一種基于特征權重的LARS糖尿病預測方法,針對現有LARS糖尿病預測方法的不足,根據PCA主成分分析,充分考慮到不同糖尿病特征對預測結果的影響,給出了改進的特征自變量與因變量相關度的計算方法,簡化糖尿病預測模型,提出了基于特征權重的LARS糖尿病預測方法。
為解決上述發明的目的,本發明提供技術方案如下:
一種基于特征權重的LARS糖尿病預測方法,包括如下步驟:
步驟1,歸一化糖尿病數據集矩陣,初始化當前擬合值向量和殘差向量;
步驟2,計算自變量特征權重向量和原始相關度向量;
步驟3,計算角平分向量、回歸系數向量、新相關度向量和最大相關度;
步驟4,更新回歸系數向量,擬合值向量、殘差向量和指標集;
步驟5,判斷殘差向量的L2范數是否小于容忍度,若是則結束,否則重復步驟3至步驟5。
進一步的,所述步驟1的糖尿病數據集特征之間差值大,需對每個特征值進行歸一化;所述當前擬合值為當前迭代的預測值,殘差為真實值與當前預測值的差,其計算方式為:
式中,μ為當前擬合值向量;y為真實值向量。
進一步的,所述步驟2中計算原始特征自變量與y的相關度公式為:c=XTy
所述計算特征自變量的特征權重的公式為:
式中,為特征方程的特征值,
特征方程中R為糖尿病數據集矩陣的協方差矩陣,其計算公式為:
式中,θi為第i個特征的均值。
進一步的,所述步驟3中,計算新相關度的計算公式為:C=cTβ
式中,c=XT(y-μA),μA為前一步的擬合值;β為求得各特征自變量的特征權重向量,其相關度最大值為:C_max=max{|C|}
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于嶺南師范學院,未經嶺南師范學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910340600.5/2.html,轉載請聲明來源鉆瓜專利網。





