[發明專利]一種基于特征聚類的深度學習方法在審
| 申請號: | 201910665812.0 | 申請日: | 2019-07-23 |
| 公開(公告)號: | CN110390358A | 公開(公告)日: | 2019-10-29 |
| 發明(設計)人: | 楊勇;黃淑英 | 申請(專利權)人: | 楊勇 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京匯信合知識產權代理有限公司 11335 | 代理人: | 戴鳳儀 |
| 地址: | 330036 江西*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征變量 特征聚類 篩選 數據預處理 自定義函數 樣本 自變量 降維處理 聚類處理 聚類方式 聚類分析 聚類結果 神經網絡 數據集中 數據縮放 數據形狀 特征屬性 映射 低維 學習 觀察 展示 | ||
本發明公開了一種基于特征聚類的深度學習方法,包括以下步驟:在特定數據集中選取出特征變量、對選取出特征變量進行數據預處理、計算特征變量之間的相關性系數,并利用自定義函數篩選相關性系數高的特征變量、篩選出特征變量中的主成分、對篩選出的主成分進行構造、聚類處理、基于聚類結果指導神經網絡構造;本發明通過對選取出的特征變量進行數據預處理,數據縮放能夠消除不同樣本之間特性、數量級等特征屬性的差異,降維處理可以將樣本映射到低維度空間進行展示,便于后期根據觀察數據形狀來選擇最適合的聚類方式,能提高特征聚類的準確性,通過利用自定義函數篩選相關性系數高的特征變量,可以解決聚類分析中挑選自變量相關性比較低的問題。
技術領域
本發明涉及機器學習技術領域,尤其涉及一種基于特征聚類的深度學習方法。
背景技術
在深度學習領域,主流的深度學習架構有DNN,RNN和CNN,DNN是特征全連接的神經網絡,是一種通用的深度學習方法;RNN是循環神經網絡,也是一種全連接結構,主要用于有時間上下文場景,比如NLP領域;CNN是卷積神經網絡,特征是基于空間相關性的局部連接,主要用于圖像處理領域。目前這三種主流的神經網絡結構的優缺點也非常明顯,CNN的這種特征局部相關連接,減少了大量的參數存儲和計算;DNN不考慮特征相關性,直接對所有特征全連接,造成大量的計算和存儲壓力,并且許多不相關的特征也進行連接計算,造成大量的干擾和不必要的連接計算;RNN也存在類似的問題。
針對圖像或者其他具有空間相關性特征的數據集,可以直接使用CNN學習,但是對于不具有類似圖像這種空間局部相關性的數據,直接使用CNN效果則不會好,直接使用DNN則存在大量的不相關特征的連接計算和參數存儲壓力,因此,本發明提出一種基于特征聚類的深度學習方法,以解決現有技術中的不足之處。
發明內容
針對上述問題,本發明提出一種基于特征聚類的深度學習方法,通過對選取出的特征變量進行數據預處理,數據縮放能夠消除不同樣本之間特性、數量級等特征屬性的差異,降維處理可以將樣本映射到低維度空間進行展示,便于后期根據觀察數據形狀來選擇最適合的聚類方式,能提高特征聚類的準確性,通過利用自定義函數篩選相關性系數高的特征變量,可以解決聚類分析中挑選自變量相關性比較低的問題。
本發明提出一種基于特征聚類的深度學習方法,包括以下步驟:
步驟一:基于特定數據集,在特定數據集中選取出最為重要的特征變量;
步驟二:對選取出的特征變量進行數據預處理,包括進行數據縮放、數據變換和數據降維處理;
步驟三:計算特征變量之間的相關性系數,以相關性系數作為相似性度量,并利用自定義函數篩選相關性系數高的特征變量;
步驟四:基于特征變量之間的相關性系數,篩選出特征變量中的主成分;
步驟五:對篩選出的主成分進行構造,形成網絡圖示結構;
步驟六:對網絡圖示結構進行聚類處理,將相關性系數高的特征變量劃分為一類,得到聚類結果;
步驟七:基于得到的聚類結果來指導神經網絡構造。
進一步改進在于:所述步驟一中的特征變量可以用相關性、基尼系數、信息熵、統計檢驗或是隨機森林中的任意一種方法進行選取。
進一步改進在于:所述步驟二中數據縮放過程為:將獲取到的特征變量按照比例進行轉換,將轉換后的特征變量壓縮到(0,1)之間。
進一步改進在于:所述步驟二中數據變換采用離散傅里葉變換或離散小波變換中的任意一種方式進行數據變換。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于楊勇,未經楊勇許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910665812.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于邊信道的DTU安全監測方法
- 下一篇:一種西藏青稞葉片病變的識別方法





