[發明專利]基于數據共現關系的深度聚類方法及系統在審
| 申請號: | 201911337783.1 | 申請日: | 2019-12-23 |
| 公開(公告)號: | CN111160437A | 公開(公告)日: | 2020-05-15 |
| 發明(設計)人: | 劉冠男;吳俊杰;吳孟其 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京遠大卓悅知識產權代理事務所(普通合伙) 11369 | 代理人: | 卞靜靜 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 數據 關系 深度 方法 系統 | ||
本發明公開了基于數據共現關系的深度聚類方法,包括:獲取數據集;對數據集進行預處理;在預處理后的數據特征空間中,以隨機特征選擇策略生成多個基礎聚類結果;構造數據在類簇空間的共現關系矩陣;以深度自編碼器作為模型的基本架構,基于共現關系矩陣構建模型的聚類正則項,并與深度自編碼器的重構誤差相加作為模型的目標函數;對模型進行迭代訓練;使用訓練好的深度自編碼器在數據集上進行特征表示,將數據的特征表示輸入到k?means聚類算法中,輸出數據集標簽。本發明為提高深度聚類模型的特征表示質量提供了一種新的方法。
技術領域
本發明涉及數據挖掘和機器學習領域。更具體地說,本發明涉及一種基于數據共現關系的深度聚類方法及系統。
背景技術
隨著深度學習的發展,很多傳統的機器學習任務的效果通過借助深度學習模型強大的特征表示學習的能力而有了很大提升。將深度學習與聚類任務相結合的模型一般稱之為深度聚類模型。目前大多數深度聚類模型的特征表示學習過程中的監督信息主要來自于兩方面,一個是與該數據點相同類簇的類簇中心點,另外一個是該數據點在歐式空間中的近鄰點。然而上述兩種方式在深度聚類的表示學習過程中均不能充分的捕獲原始數據的類簇結構的信息,進而破壞了數據的隱層特征表示。
發明內容
本發明的一個目的是提供一種基于數據共現關系的深度聚類方法,其基于數據的原始特征生成多個基礎聚類結果,將生成的多個基礎聚類結果轉化為數據的共現關系矩陣,作為數據之間在類簇空間中相似性的一種度量來指導深度聚類的表示學習過程,從而使得模型最終學習到的特征表示更加適合于后續的聚類任務。
為了實現根據本發明的目的和其它優點,提供了一種基于數據共現關系的深度聚類方法,包括:
步驟1、獲取數據集;
步驟2、對所述數據集進行預處理,包括數據的特征提取和歸一化;
步驟3、在預處理后的數據特征空間中,以隨機特征選擇策略生成多個基礎聚類結果;
步驟4、使用所述多個基礎聚類結果,構造數據在類簇空間的共現關系矩陣;
步驟5、以深度自編碼器作為模型的基本架構,基于所述共現關系矩陣構建模型的聚類正則項,并與深度自編碼器的重構誤差相加作為模型的目標函數;
步驟6、對所述模型進行迭代訓練,若滿足迭代終止條件,則停止迭代,輸出訓練好的深度自編碼器,否則,繼續進行模型的迭代;
步驟7、使用訓練好的深度自編碼器在所述數據集上進行特征表示,將數據的特征表示輸入到k-means聚類算法中,輸出數據集標簽。
優選的是,所述的基于數據共現關系的深度聚類方法,還包括,步驟8、將所述數據集標簽與數據集真實標簽進行對比,計算聚類準確率和標準化互信息,評價聚類效果。
優選的是,所述的基于數據共現關系的深度聚類方法,步驟1中,所述數據集的數據量規模在1萬以上。
優選的是,所述的基于數據共現關系的深度聚類方法,步驟2中,數據的歸一化采用簡單縮放策略,歸一化函數為:x=(x-xmin)/(xmax-xmin),式中,x表示數據特定維度的特征值,xmin表示數據在該維度特征值的最小值,xmax表示數據在該特征維度特征值的最大值。
優選的是,所述的基于數據共現關系的深度聚類方法,步驟3中,在隨機特征選擇策略中,設置采樣比率為80%。
優選的是,所述的基于數據共現關系的深度聚類方法,步驟4中,所述多個基礎聚類結果為r個基礎聚類結果Π={π1,π2,…,πi,…,πr},所述共現關系矩陣
且
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911337783.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種圓柱形鉛蓄電池
- 下一篇:功率端子、功率模塊封裝結構及封裝方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





