[發明專利]基于交替學習的不完整數據精細建模及缺失值填補方法在審
| 申請號: | 202010085968.4 | 申請日: | 2020-02-11 |
| 公開(公告)號: | CN111340069A | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 劉輝;張立勇;宋橘超 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N7/02 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 隋秀文;溫福雪 |
| 地址: | 116024*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 交替 學習 完整 數據 精細 建模 缺失 填補 方法 | ||
本發明公開一種基于交替學習的不完整數據精細建模及缺失值填補方法,屬于數據挖掘領域。首先基于模糊聚類算法將輸入空間劃分為若干個子集,并對每個子集建立一個特定的局部線性回歸模型;然后采用局部線性回歸模型的加權和來構建全局模型,提升了模型的精細度;并對每個子集使用逐步回歸算法進行顯著輸入特征的選擇以進一步提高模型的精細度。本發明將缺失值視為變量,并提出一種讓顯著輸入特征的選擇、模型的參數和缺失值的填補三者交替學習的模型求解策略,在建模完成的同時填補也伴隨式的完成。本發明提高傳統回歸填補中所建模型的精細度,并有效的解決不完整數據建模時模型輸入數據不完整的問題,具有較理想的填補精度。
技術領域
本發明屬于數據挖掘領域,涉及一種基于交替學習的不完整數據精細建模及缺失值填補方法。
背景技術
數據挖掘技術能從大量的數據中通過算法搜索隱藏于其中的信息,從而為決策提供正確的指導。然而在現實生活的各個領域中,數據缺失幾乎是一個無法避免的問題。高質量的數據是高質量數據挖掘的前提。由于眾多數據挖掘算法很難獨立應對不完整數據集,缺失值填補已經成為不完整數據分析的一個研究熱點。目前,研究學者提出了多種缺失值填補方法,如均值填補法、熱卡填補法、基于聚類的填補法和回歸填補法等。
均值填補法(H.L.Shashirekha,A.H.Wani,Analysis of imputation algorithmsfor microarray gene expression data,in:2015International Conference onApplied and Theoretical Computing and Communication Technology,Davangere,India,2015)利用不完整屬性列中現有數據的均值來代替缺失值。該方法雖然能較快的填補缺失值,但減少了填補值的多樣性,因此填補效果較差。
與均值填補法不同,熱卡填補法(T.Srebotnjak,G.Carr,A.Sherbinin,C.Rickwood,A global Water Quality Index and hot-deck imputation of missingdata,Ecological Indicators,17(2012)108-119)主要使用相關矩陣度量樣本之間的相似度,并在數據集中找到與不完整樣本最為相似的樣本,然后用這個相似樣本的屬性值來代替缺失值。由于考慮到了樣本之間的相關性,該方法通常比均值填補法有著更好的填補性能。
與熱卡填補法相似,基于聚類的填補法(C.F.Tsai,M.L.Li,W.C.Lin,A classcenter based approach for missing value imputation,Knowledge-Based Systems,151(2018)124–135)也考慮到了樣本之間的相關性,但是不同之處在于該方法將數據集劃分為若干個子集,并用離不完整樣本最近的聚類中心的相應屬性值來代替缺失值。
與上述方法都不同,回歸填補法(C.Crambes,Y.Henchiri,Regressionimputation in the functional linear model with missing values in theresponse,Journal of Statistical Planning and Inference,201(2018)103-119)是一種基于模型的填補方法,其主要思想是根據屬性間的依賴關系對不完整數據建立回歸模型,然后基于所建的回歸模型對缺失值進行填補。由于考慮到了屬性之間的相關性,在一般情況下,該填補法通常比上述方法有著更好的填補性能?;貧w填補法的填補結果通常受所建回歸模型精確度的影響極大,因此不完整數據的建模引起了很多研究者的興趣。如何處理不完整的模型輸入數據以及如何合適的描述屬性之間的關系是不完整數據建模面臨的兩大主要問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010085968.4/2.html,轉載請聲明來源鉆瓜專利網。





