[發明專利]基于交替學習的不完整數據精細建模及缺失值填補方法在審
| 申請號: | 202010085968.4 | 申請日: | 2020-02-11 |
| 公開(公告)號: | CN111340069A | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 劉輝;張立勇;宋橘超 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N7/02 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 隋秀文;溫福雪 |
| 地址: | 116024*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 交替 學習 完整 數據 精細 建模 缺失 填補 方法 | ||
1.一種基于交替學習的不完整數據精細建模及缺失值填補方法,其特征在于,具體如下:
(1)建模
首先使用基于局部距離策略的模糊C均值聚類算法將輸入空間進行劃分;給定樣本容量為n,屬性個數為s的不完整數據集,算法通過最小化式(4)中的目標函數將輸入空間劃分為c個子集,
其中,表示樣本xk屬于子集A(i)的隸屬度;m為隸屬度的加權指數,m∈(1,∞);dki表示xk與聚類中心vi=[v1i,v2i,…,vsi]之間的距離,1≤i≤c,dki計算公式如式(5)所示:
其中,vji表示vi的第j個屬性值;用于標記xjk是否缺失,XM和Xp分別為所有缺失值組成的集合和所有完備值組成的集合;
然后使用逐步回歸算法選取每條模糊規則的顯著輸入特征:逐步回歸算法將對輸出影響顯著的特征按照重要性逐一引入回歸模型,且每引入一個新的特征都要對已選入回歸模型的特征重新進行顯著性檢驗;若回歸模型中的已有特征由于新特征的引入而變得不顯著,則將最不顯著的特征刪除;當既沒有新的特征能夠選入回歸模型,也沒有不顯著特征可以從回歸模型中剔除時算法終止;
對輸入空間進行劃分并對每條模糊規則進行顯著輸入特征的選擇后,令第i條模糊規則的顯著輸入特征集合且mi為所選入特征的個數,其中顯著輸入特征則第i條模糊規則簡化為式(6),
其中,c為模糊規則數目;表示第i條模糊規則的輸出;是簡化后的第k個樣本;為簡化后的第i條模糊規則的前件中第mi維輸入特征所屬的子集;為簡化后的第i條模糊規則的后件參數;第i條模糊規則的貢獻權重的計算方式如式(7)所示:
式中,單變量隸屬度由多變量隸屬度經過高斯投影得到,如式(8)所示:
其中aji和bji分別表示高斯函數中心和高斯函數標準差,其計算公式如式(9)所示:
其中uki表示樣本xk隸屬于模糊子集A(i)的程度;則TS模糊模型的輸出由式(10)計算得到:
(2)缺失值填補
依次將每個不完整屬性列作為輸出,其余所有屬性作為輸入建立多個TS模糊模型;將缺失值視為變量,采用交替學習策略用于模型求解和缺失值填補,步驟如下:
步驟1:將缺失值進行均值預填補以獲得重構的完整數據集;
步驟2:基于重構的完整數據集更新模型的顯著輸入特征和后件參數;
步驟3:根據更新后的模型的顯著輸入特征和后件參數得到模型輸出并用其更新缺失值;
步驟4:若由現有值及其對應模型輸出求得的填補誤差大于或等于給定的閾值,返回步驟2;否者,利用與缺失值對應的模型輸出填補缺失值并輸出填補的數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010085968.4/1.html,轉載請聲明來源鉆瓜專利網。





