[發明專利]一種基于聚類的分步式數據降維方法在審
| 申請號: | 201710809903.8 | 申請日: | 2017-09-08 |
| 公開(公告)號: | CN107562908A | 公開(公告)日: | 2018-01-09 |
| 發明(設計)人: | 謝國;張永艷;張春麗;劉偉;黑新宏;錢富才 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司11315 | 代理人: | 楊洲 |
| 地址: | 710048*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分步 數據 方法 | ||
技術領域
本發明屬于數據挖掘領域,具體涉及一種聚類和降維相結合的高效的數據降維方法。
背景技術
近幾年,工業監測數據大量產生,如何從大量數據中提取有效信息已成為工業界的重要研究課題。現有研究中,數據降維方法能夠把高維數據通過低維空間表現出來的同時,保留絕大多部分有效信息,消除數據冗余,已成為一種有效的信息提取手段,被廣泛研究。目前,主要的降維方法包括PCA、LDA、局部線性降維LLE、非線性降維核PCA、多層自動編碼等,但由于各自方法的局限性,在數據維數較高時,效率較低,難以滿足數據發展的迫切需求。
發明內容
本發明的目的在于提供一種基于聚類的分步式降維方法,可以進一步提高降維的有效性。
為實現上述目的本發明采用以下技術方案:一種基于聚類的分步式降維方法,包括如下步驟:
步驟1、對工業監測數據按數據點間的距離進行聚類;
步驟2、對步驟1產生的聚類數據的每一類數據分別進行降維,即分區降維;
步驟3:對步驟2產生降維后的數據進行一系列調整之后再進行一次降維。
作為本發明進一步的方案,步驟1具體按照以下步驟實施:
步驟(1.1)、工業監測數據為矩陣X,令xkT=(xk1,xk2,...,xkp),k=1,2,...,N,p為變量數目,N是采樣的樣本數目;
步驟(1.2)、將所述步驟(1.1)中數據集分成a類,其中a為給定常數,隨機選擇a個樣本作為初始均值向量,它的集合U={u1,u2,...,ua},即為a類樣本的中心,ui=xkT,i=1,2,...,a;
步驟(1.3)、分別計算N個采樣樣本xk分別到各個中心ui的距離,dik=||xkT-ui||2;
步驟(1.4)、根據距離最近的均值向量確定每個樣本xk的標記,每個樣本只能屬于某一類;聚類之后,第一類集合表示為C1,card(C1)=l1,其中i=1,2,...,l1,為樣本向量xk,同理第a類集合表示為Ca,card(Ca)=la其中i=1,2,...,la,且要滿足
作為本發明進一步的方案,步驟2具體按照以下步驟實施:
對步驟1聚類后每類的樣本數據進行降維,先對聚類之后的第一類數據進行降維,再用同樣的方法對剩下的(a-1)類依次進行降維,第一類樣本集合為C1,
步驟(2.1)、對第一類樣本集合C1進行中心化,中心化過程為其中xij分別表示樣本集合C1中第i行第j列的數據,中心化過程就是把C1中的每一個數據減去該列數據的平均數;
步驟(2.2)、計算樣本的協方差矩陣C1TC1;
步驟(2.3)、對協方差矩陣C1TC1做特征值分解;
步驟(2.4)、取最大的d1個特征值對應的特征向量其中q=1,2,...,d1,且d1≤l1;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710809903.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





