[發明專利]一種連續特征離散化損失信息補償方法及其應用有效
| 申請號: | 202110879527.6 | 申請日: | 2021-08-02 |
| 公開(公告)號: | CN113743464B | 公開(公告)日: | 2023-09-05 |
| 發明(設計)人: | 王彬;王煒智;李哲輝 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F18/213 | 分類號: | G06F18/213;G06F18/241;G06N20/00 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 陳波 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 連續 特征 離散 損失 信息 補償 方法 及其 應用 | ||
1.一種環境空氣質量連續特征離散化損失信息補償方法,其特征在于:包括:
Step1、對選取的環境空氣質量連續特征和因變量特征進行預處理,并對預處理的連續特征和因變量特征進行切分,分為訓練集和測試集;
Step2、對因變量特征進行分類形成類標簽;結合類標簽采用Chimerge算法對訓練集的i個連續特征進行離散化處理,得到離散訓練集及切割點,根據切割點對測試集進行離散化操作,形成離散測試集;
Step3、構建特征相關性權值系數,對損失的信息進行補償;
所述Step1具體如下:
Step1.1、收集數據集X={x1,x2,x3,..,xo,y},數據集中每個樣本有多個特征,選取自變量特征中的i個連續特征;其中,x1,x2…xo為自變量特征,共計o個,y表示為因變量特征,i≤o;
Step1.2、判斷i個連續特征及因變量特征對應的樣本中是否存在缺失值,若存在缺失值采用拉格朗日插值法對缺失值進行填充;
Step1.3、判斷i個連續特征是否都處于一個量綱中,若不在則對特征進行標準化處理;
Step1.4、判斷連續特征是否為高維特征,若為高維特征則進行降維或者特征提取;
Step1.5、將預處理完畢的連續特征按照7:3的比例切分為訓練集和測試集;
所述Step2具體如下:
Step2.1、對因變量特征y,進行分類形成類標簽;
Step2.2、采用訓練集,分別對i個連續特征的樣本值進行排序,分別對每個連續特征排序后的樣本值根據類標簽進行去重復處理,最終形成新的訓練數據集;
Step2.3、預先設定離散區間數;依次計算兩個相鄰區間的卡方值,將相鄰區間的卡方值與設定閾值進行比較,若先前計算的相鄰區間的卡方值小于等于該閾值則對該區間進行合并處理,否則不做處理;迭代合并處理過程直到達到設定的離散區間數為止;最終形成離散訓練集,離散訓練集中只含有離散特征;
Step2.4、返回各區間的切割點,并對采用Step1.5中切分好的測試集進行離散化操作,形成離散測試集;
所述相鄰區間的卡方值χ2,計算方法如下:
其中,k為類標簽的數量,Ams表示為第m個區間的第s類樣本的數量,Ems為Ams的期望值,表示在第m區間樣本數Cs表示相鄰兩個區間的第s類樣本個數N表示總的樣本數b是一個常數;
所述Step3為:分析離散化前各連續特征與因變量特征間的相關性,分析各離散特征與類標簽間的信息增益,并對相關性指標、信息增益指標通過數乘的方式進行融合處理,構建特征的相關性權值系數;其中,對因變量特征進行分類形成類標簽;
所述Step3具體如下:
Step3.1、分析訓練集中的i個連續特征與因變量特征間的相關性,計算方法如下:
其中,λp表示第p個連續特征與因變量特征間的相關系數,Cov(fp,y)表示第p個連續特征fp與因變量特征的協方差,D(fp)表示第p個連續特征fp的標準差,D(y)表示因變量特征的標準差,p=1,2,...i,i表示連續特征的總個數;
Step3.2、分析離散訓練集中的i個離散特征和類標簽的信息增益,計算方法如下:
IG(D,Aq)=H(D)-H(D|Aq)
其中,
其中,IG(D,Aq)表示第q個離散特征Aq對離散訓練集D的信息增益,經驗熵H(D)表示為離散訓練集D進行分類的不確定性,經驗條件熵H(D|Aq)表示第q個離散特征Aq在給定條件下對離散訓練集D進行分類的不確定性;Ck表示為第k個類標簽,k=1,2…,K,|Ck|表示屬于Ck的樣本個數,|D|表示離散訓練集的樣本容量,即樣本個數;設離散特征Aq有n個不同的取值{a1,a2,..,an},依據離散特征Aq的取值將離散訓練集D劃分為n個子集D1,D2……Dn,|Dj|為Dj的樣本數;記子集Dj中屬于類Ck的樣本的集合為Djk,|Djk|表示子集Djk的樣本個數,q=1,2,...i,i表示離散特征的總個數且與連續特征的總個數相同;
Step3.3、特征相關性融合,構建特征的相關性權值系數,計算方法如下;
ξr=λpIG(D,Aq),p=q=r
其中,ξr表示第r個離散特征的相關性權值系數,r=1,2,...i,i表示離散特征/連續特征的總個數;
Step3.4、構建特征的權重,計算方法如下;
其中,ωr表示第r個離散特征的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110879527.6/1.html,轉載請聲明來源鉆瓜專利網。





