[發明專利]一種不均衡不完整數據集的建模及缺失值填補方法在審
| 申請號: | 202010085969.9 | 申請日: | 2020-02-11 |
| 公開(公告)號: | CN111353525A | 公開(公告)日: | 2020-06-30 |
| 發明(設計)人: | 劉輝;張立勇;陸藝丹 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 隋秀文;溫福雪 |
| 地址: | 116024*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 均衡 完整 數據 建模 缺失 填補 方法 | ||
1.一種不均衡不完整數據集的建模及缺失值填補方法,其特征在于,具體如下:
(1)構建模型
結合局部密度和局部距離定義了每個樣本的距離密度dsij的計算方法,并設計辨識前件模型的距離密度算法,簡稱SD算法:
設有不完整數據集X={XM,XC},其中XM為數據集中缺失值構成的子集,XC為數據集中非缺失值構成的子集,對于任意樣本xi,xj∈X,其距離密度dsij為:
dsij=exp(S(xi))×pd(xi,xj) (5)
式中,S(x)i是式(6)中定義的樣本xi的局部密度,pd(xi,xj)是由式(7)得到的xi和xj的局部距離;
數據集X中的樣本xi的局部密度定義為:
式中,Nj表示由樣本xi的K個近鄰樣本xj組成的集合,其中i=1,2,...,n,n表示樣本數量,j=1,2,...,K,K為自定義常數,pd(xi,xj)定義為局部距離,計算方法為:
式中,s是樣本屬性數量,Iim標記第i個樣本的第m個屬性值xim是否缺失,Ijm標記第j個樣本的第m個屬性值xjm是否缺失,計算方法為:
采用SD算法計算出樣本的聚類中心,以及聚類中心的個數,然后用得到的聚類中心計算隸屬度,最終得到模型的前件參數;
(2)填補方案
基于一種迭代學習的方式更新TS模型的結論參數和填補值:針對樣本屬性數量為s的不完整數據集X,分別以每維屬性作為輸出,搭建s個TS模型,每個TS模型的輸入為D(m)={D1,D2,...,Dm-1,Dm+1,...Ds},期望輸出為Y=Dm,其中m=1,2,...,s,首先對不完整數據集隨機初始化得到完整數據集,隨后基于最小二乘法計算結論參數,在每個TS模型中,對于第j個樣本xj的第i條規則R(i)的加權輸入Hj(i)由式(9)得到:
Hj(i)=vj(i)Γ(i) (9)
式中vj(i)表示權重;Γ(i)=[1,xj1(i),...,xj(q-1)(i),xj(q+1)(i),...,xjs(i)]表示經過變量選擇之后R(i)的輸入變量,其中輸入變量xjq(i)被剔除,i=1,2,...,k,j=1,2,...,n,1qs,然后計算模型的實際輸出值
式中P(i)為由最小二乘公式得到的第i條規則R(i)的結論參數;
通過公式(9)和(10)得到s個TS模型的輸出集合其中l表示第l次迭代,表示更新填補值,表示現有數據對應的模型輸出,用來計算與相應真實值的均方根誤差f(l),然后計算與上一次迭代學習得到的均方根誤差f(l-1)的差值|△f|,若大于閥值ε則重復上述步驟進入新一輪學習,否則迭代結束并輸出填補后的數據集,這樣,以第s維屬性為輸出的不均衡不完整數據TS建模得以實現。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010085969.9/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





