[發明專利]一種數據降維方法在審
| 申請號: | 201811243035.2 | 申請日: | 2018-10-24 |
| 公開(公告)號: | CN109189776A | 公開(公告)日: | 2019-01-11 |
| 發明(設計)人: | 李星南;曾瑛;林斌;付佳佳;施展;吳贊紅 | 申請(專利權)人: | 廣東電網有限責任公司;廣東電網有限責任公司電力調度控制中心 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張春水;唐京橋 |
| 地址: | 510600 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標函數 全局目標函數 高維數據 數據降維 核主成分分析 局部保持 投影矩陣 投影法 構建 預處理 相乘 核函數矩陣 自適應調整 平衡因子 冗余信息 數據集中 數據挖掘 運算過程 運行效率 核函數 數據集 求解 低維 高維 鄰域 算法 去除 噪聲 平衡 | ||
1.一種數據降維方法,其特征在于,包括:
對高維數據進行預處理得到高維數據集,并選取核函數;
構建基于核主成分分析的全局目標函數,并求解核函數矩陣;
自適應調整鄰域參數值,采用局部保持投影法構建局部目標函數;
確定平衡因子值以平衡所述全局目標函數和所述局部目標函數,并將所述全局目標函數和所述局部目標函數結合為總體目標函數;
確定主成分個數與投影矩陣,將所述投影矩陣與所述高維數據集相乘得到低維數據集。
2.根據權利要求1所述的數據降維方法,其特征在于,所述對高維數據進行預處理得到高維數據集,并選取核函數的步驟包括:
對所述高維數據進行z-score標準化,得到高維數據集XT,XT=[x1,x2,…xn]∈Rm*n,其中,m為數據集的維度,n為數據樣本個數;
選取高斯徑向基函數作為所述核函數,所述高斯徑向基函數為
3.根據權利要求2所述的數據降維方法,其特征在于,所述構建基于核主成分分析的全局目標函數,并求解核函數矩陣的步驟包括:
構建所述全局目標函數其中φ(X)T=[φ(x1),φ(x2),…,φ(xn)],vTv=1,v為投影向量;
其中,所述投影向量v在特征點φ(xi)的展開方向上存在一個向量u=(u1,u2,…,un)T,滿足方程式
引入核函數k(xi,xj)=φ(xi)·φ(xj),得到全局目標函數Jglobal(u)=maxuTKTKu=maxuTCu其中,K為所述核函數矩陣,所述核函數矩陣uTKu=1u。
4.根據權利要求3所述的數據降維方法,其特征在于,所述自適應調整鄰域參數值,使用局部保持投影法構建局部目標函數的步驟包括:
利用Parzen窗計算數據點的密度分布來自適應調整鄰域參數ε,其中,所述Parzen窗的概率密度計算式n為數據樣本個數,h為窗體寬度,V=hm為窗體體積,φ(x)為窗函數,且滿足φ(x)≥0;
以余弦角距離計算式作為相似度函數、以正態窗函數作為所述窗函數φ(x),則數據點xi的鄰域概率密度
根據所述鄰域概率密度p(xi),并通過自適應調整所述鄰域參數ε,其中,數據集分布的平均密度
通過自適應的所述鄰域參數ε,可以確定數據的鄰域關系為||φ(xi)-φ(xj)||2≤ε,則得到所述局部目標函數Jlocal(v)=min(vTφ(X)T(D-S)φ(X)v),其中,sij為權重參數,S為鄰域圖權重矩陣,D為對角矩陣;
通過引入核函數k(xi,xj)=φ(xi)·φ(xj),存在一個向量u,u=(u1,u2,…,un)T,滿足方程式則所述局部目標函數轉換為Jlocal(u)=min(uTKTLKu)=min(uTL'u),其中,矩陣L=D-S為拉普拉斯矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司;廣東電網有限責任公司電力調度控制中心,未經廣東電網有限責任公司;廣東電網有限責任公司電力調度控制中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811243035.2/1.html,轉載請聲明來源鉆瓜專利網。





