[發明專利]基于最大信息系數的特征選擇、分類方法及其裝置有效
| 申請號: | 201410228055.8 | 申請日: | 2014-05-27 |
| 公開(公告)號: | CN104050242B | 公開(公告)日: | 2018-03-27 |
| 發明(設計)人: | 孫廣路;何勇軍;劉廣明 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 北京路浩知識產權代理有限公司11002 | 代理人: | 李迪 |
| 地址: | 150080 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 最大 信息 系數 特征 選擇 分類 方法 及其 裝置 | ||
技術領域
本發明涉及無線通信領域,具體地,涉及一種基于最大信息系數的特征選擇、分類方法及其裝置。
背景技術
隨著科學技術的發展,數據規模也隨之快速增長,對這些數據進行智能化的分析和處理變得越來越重要。但是隨之而來的問題是,海量的原始數據中存在著大量冗余信息,對模式識別、機器學習等領域的算法提出了挑戰。一方面,冗余數據極大地增加了算法的時間復雜度和空間復雜度,浪費了存儲資源,增加了處理時間;另一方面,冗余數據由于存在較大相關性,導致分類結果產生偏差,降低了智能信息處理軟件的性能。特征選擇以消除數據冗余,降低數據維數為目的,是解決上述問題的有效方法,因而一直是學術界研究的熱點。
網絡流量的特征種類多樣,數值覆蓋范圍廣,兼有離散和連續特征,處理起來有著很大的困難,難以得到有利于分類的優秀的特征子集。
在特征選擇方面已有許多成型方法,典型的有基于信息增益的、基于神經網絡的、基于決策樹的方法等。從廣義上來說,特征選擇可分為兩大類,第一類是特征排序,第二類是特征子集選擇。特征排序的方法首先計算特征與類別之間的相關性,然后根據相關性對特征進行排序,保留與類別相關性強的特征。盡管這類方法速度快,但是難以消除冗余特征。特征子集選擇通過選擇維數盡可能低、各位之間相關性盡可能小的一個特征子集,能有效消除冗余特征。但傳統的特征子集選擇方法大都根據特征之間的線性相關性選擇特征,難以消除普遍存在的非線性冗余,這限制了該類方法性能的提高。
發明內容
本發明提供了一種基于最大信息系數的特征選擇、分類方法及其裝置,通過使用互信息以及最大信息系數的方式進行特征選擇,從而去除冗余特征,降低了數據的維度。
為此目的,本發明提出了一種基于最大信息系數的特征選擇方法,其特征在于,所述方法包括:S1,基于互信息準則將原始特征進行排序,將相關度低于閾值的特征刪除,并將所述相關度高于閾值的特征形成初始特征子集;S2,計算在所述初始特征子集中的特征之間的最大信息系數;S3,根據所述最大信息系數,刪除所述初始特征子集中的冗余特征,得到低維特征子集。
其中,步驟S1具體包括:根據所述原始特征與類別之間的相關程度對所述原始特征進行排序,并將相關程度低于閾值的特征刪除。
其中,所述步驟S2包括:S21,將所述初始特征子集中的特征放置在二維坐標系中;S22,對所述二維坐標系進行多次網格劃分;S23,計算在每次網格劃分下,每一塊網格中的特征之間的互信息值,計算每次網格劃分的最大互信息值,并建立最大互信息矩陣;S24,通過最大戶信息矩陣計算所述初始特征子集中的特征的最大信息系數。
其中,所述建立最大互信息矩陣包括:設定每次網格劃分的大小小于B,B為根據所述特征的數量設定的值,所述最大互信息矩陣的計算公式如下:
其中,M(D)i,j為所述最大互信息矩陣的第i行第j列的值,表示在不同的網格劃分條件下得到的最大互信息值,且i,j滿足0<i<B,0<j<B,i×j<B。
其中,所述步驟S3包括:選擇最大信息系數超過設定閾值的特征對;將相互關聯的特征對組成冗余特征集合;選取每個冗余特征集合中貢獻度最大的特征作為子特征,并將所述每個冗余特征集合中的其他特征刪除;將每個所述冗余特征集合的子特征組成所述低維特征子集。
根據本發明的另一個方面,提供了一種基于上述特征選擇方法進行數據分類的方法,所述方法包括:S101,根據上述特征選擇方法對數據進行選擇;S102,將選擇后的數據通過訓練形成模型;S103,通過所述模型對待測數據進行識別。
其中,使用增量式支持向量機模型對所述選擇后的數據進行訓練。
根據本發明的又一個方面,提供了一種基于最大信息數的特征選擇裝置,其特征在于,所述裝置包括:初始特征形成模塊,基于互信息準則將原始特征進行排序,并將低于閾值的特征刪除,形成初始特征子集;最大信息系數計算模塊,計算在初始特征子集中的特征之間的最大信息系數;特征選擇模塊,根據最大信息系數,刪除所述初始特征子集中的冗余特征,得到低維特征子集。
其中,所述最大信息系數計算模塊包括:坐標系建立單元,將所述初始特征子集中的特征放置在二維坐標系中;網格劃分單元,對所述二維坐標系進行多次網格劃分;最大互信息計算單元,計算在每次網格劃分下,每一塊網格中的特征之間的互信息值,計算每次網格劃分的最大互信息值,并建立最大互信息矩陣;最大信息系數計算單元,通過最大戶信息矩陣計算所述初始特征子集中的特征的最大信息系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410228055.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可隨意更換按鍵布局的鍵盤
- 下一篇:時鐘芯片的測試方法和系統
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





