[發明專利]一種數據降維方法在審
| 申請號: | 201811243035.2 | 申請日: | 2018-10-24 |
| 公開(公告)號: | CN109189776A | 公開(公告)日: | 2019-01-11 |
| 發明(設計)人: | 李星南;曾瑛;林斌;付佳佳;施展;吳贊紅 | 申請(專利權)人: | 廣東電網有限責任公司;廣東電網有限責任公司電力調度控制中心 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張春水;唐京橋 |
| 地址: | 510600 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標函數 全局目標函數 高維數據 數據降維 核主成分分析 局部保持 投影矩陣 投影法 構建 預處理 相乘 核函數矩陣 自適應調整 平衡因子 冗余信息 數據集中 數據挖掘 運算過程 運行效率 核函數 數據集 求解 低維 高維 鄰域 算法 去除 噪聲 平衡 | ||
本發明公開了一種數據降維方法,包括:對高維數據進行預處理得到高維數據集,并選取核函數;構建基于核主成分分析的全局目標函數,并求解核函數矩陣;自適應調整鄰域參數值,采用局部保持投影法構建局部目標函數;確定平衡因子值以平衡所述全局目標函數和所述局部目標函數,并將所述全局目標函數和所述局部目標函數結合為總體目標函數;確定主成分個數與投影矩陣,將所述投影矩陣與所述高維數據集相乘得到低維數據集。本發明實施例提供的數據降維方法,基于核主成分分析和局部保持投影法,可以去除高維度數據集中的噪聲和冗余信息,減少數據挖掘中不必要的運算過程,提高算法的運行效率。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種數據降維方法。
背景技術
隨著電力通信網的蓬勃發展,電力通信數據的體量越來越大。傳統的數據處理方式已經無法對海量數據進行有效的分析。與此同時,隨著電力通信網、大數據處理和云計算所產生的數據維度不斷增加,為了去除高維度數據集中的噪聲和冗余信息,減少數據挖掘中不必要的運算過程,提高算法的運行效率,對高維數據進行降維處理也更加必要。
數據降維通過某種映射關系,將數據集從高維空間映射到低維空間,提取高維數據的主要特征,從而實現維度簡化。可以說,對高維數據進行降維處理是大數據分析與挖掘的基礎與前提。
因此,如何研究出一種數據降維方法,以實現維度簡化,去除高維度數據集中的噪聲和冗余信息,減少數據挖掘中不必要的運算過程,提高算法的運行效率,成為本領域技術人員所要研究的課題。
發明內容
本發明的目的在于提供一種數據降維方法,以去除高維度數據集中的噪聲和冗余信息,減少數據挖掘中不必要的運算過程,提高算法的運行效率。
為達此目的,本發明采用以下技術方案:
一種數據降維方法,包括:
對高維數據進行預處理得到高維數據集,并選取核函數;
構建基于核主成分分析的全局目標函數,并求解核函數矩陣;
自適應調整鄰域參數值,采用局部保持投影法構建局部目標函數;
確定平衡因子值以平衡所述全局目標函數和所述局部目標函數,并將所述全局目標函數和所述局部目標函數結合為總體目標函數;
確定主成分個數與投影矩陣,將所述投影矩陣與所述高維數據集相乘得到低維數據集。
可選的,所述對高維數據進行預處理得到高維數據集,并選取核函數的步驟包括:
對所述高維數據進行z-score標準化,得到高維數據集XT,XT=[x1,x2,…xn]∈Rm*n,其中,m為數據集的維度,n為數據樣本個數;
選取高斯徑向基函數作為所述核函數,所述高斯徑向基函數為
可選的,所述構建基于核主成分分析的全局目標函數,并求解核函數矩陣的步驟包括:
構建所述全局目標函數其中φ(X)T=[φ(x1),φ(x2),…,φ(xn)],vTv=1,v為投影向量;
其中,所述投影向量v在特征點φ(xi)的展開方向上存在一個向量u=(u1,u2,…,un)T,滿足方程式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司;廣東電網有限責任公司電力調度控制中心,未經廣東電網有限責任公司;廣東電網有限責任公司電力調度控制中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811243035.2/2.html,轉載請聲明來源鉆瓜專利網。





