[發明專利]一種連續特征離散化損失信息補償方法及其應用有效
| 申請號: | 202110879527.6 | 申請日: | 2021-08-02 |
| 公開(公告)號: | CN113743464B | 公開(公告)日: | 2023-09-05 |
| 發明(設計)人: | 王彬;王煒智;李哲輝 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F18/213 | 分類號: | G06F18/213;G06F18/241;G06N20/00 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 陳波 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 連續 特征 離散 損失 信息 補償 方法 及其 應用 | ||
本發明公開了一種連續特征離散化損失信息補償方法,包括:對選取的連續特征和因變量特征進行預處理,并對預處理的連續特征和因變量特征進行切分;對因變量特征進行分類形成類標簽;結合類標簽采用Chimerge算法對訓練集的i個連續特征進行離散化處理,得到離散訓練集及切割點,根據切割點對測試集進行離散化操作,形成離散測試集;構建特征相關性權值系數,公開了連續特征離散化損失信息補償方法在機器學習分類模型中的應用。本發明通過離散化算法對連續特征進行離散化處理得到離散型特征,通過建立連續特征與離散特征間的相關性對損失信息進行補償,可以有效解決連續特征在離散化處理過程中發生的信息損失的問題,并提升了機器學習分類模型的精度。
技術領域
本發明涉及一種連續特征離散化損失信息補償方法及其應用,屬于數據挖掘領域。
背景技術
隨著大數據和人工智能時代的到來,數據挖掘在各行中越來越受重視。通過挖掘數據中潛在的信息,提高數據的質量,為行業做決策時提供可靠的依據。其中,在涉及到分類模型時,由于此類模型要求特征類型為離散型。若采用連續特征作為模型的輸入,因連續特征的分布空間過于分散,容易導致模型的訓練不易收斂且預測精度不高等一系列問題。
在對連續特征進行離散化處理的過程中,無論是采用有監督的還是無監督的離散化算法對連續特征進行離散化的過程中都會產生信息的損失,通過分類模型進行實驗時,實驗結果往往不盡人意,因為對于離散化過程中產生的信息損失如何補償并未充分考慮,這顯然對分類模型的準確度會造成一定的影響。
發明內容
本發明提供了一種連續特征離散化損失信息補償方法及其應用,可以用于對連續特征進行離散,并進一步可以對損失信息進行補償。
本發明的技術方案是:一種連續特征離散化損失信息補償方法,包括:
Step1、對選取的連續特征和因變量特征進行預處理,并對預處理的連續特征和因變量特征進行切分,分為訓練集和測試集;
Step2、對因變量特征進行分類形成類標簽;結合類標簽采用Chimerge算法對訓練集的i個連續特征進行離散化處理,得到離散訓練集及切割點,根據切割點對測試集進行離散化操作,形成離散測試集;
Step3、構建特征相關性權值系數。
所述Step1具體如下:
Step1.1、收集數據集X={x1,x2,x3,..,xo,y},數據集中每個樣本有多個特征,選取自變量特征中的i個連續特征;其中,x1,x2…xo為自變量特征,共計o個,y表示為因變量特征,i≤o;
Step1.2、判斷i個連續特征及因變量特征對應的樣本中是否存在缺失值,若存在缺失值采用拉格朗日插值法對缺失值進行填充;
Step1.3、判斷i個連續特征是否都處于一個量綱中,若不在則對特征進行標準化處理;
Step1.4、判斷連續特征是否為高維特征,若為高維特征則進行降維或者特征提取;
Step1.5、將預處理完畢的連續特征按照7:3的比例切分為訓練集和測試集。
所述Step2具體如下:
Step2.1、對因變量特征y,進行分類形成類標簽;
Step2.2、采用訓練集,分別對i個連續特征的樣本值進行排序,分別對每個連續特征排序后的樣本值根據類標簽進行去重復處理,最終形成新的訓練數據集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110879527.6/2.html,轉載請聲明來源鉆瓜專利網。





