[發明專利]一種用于模式分類的特征選擇方法有效
| 申請號: | 201310304574.3 | 申請日: | 2013-07-19 |
| 公開(公告)號: | CN103425994A | 公開(公告)日: | 2013-12-04 |
| 發明(設計)人: | 曹蘇群;朱全銀;左曉明;高尚兵;陳曉峰;張虹;楊格蘭;陳召興 | 申請(專利權)人: | 淮陰工學院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 南京天華專利代理有限責任公司 32218 | 代理人: | 徐冬濤 |
| 地址: | 223003 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 模式 分類 特征 選擇 方法 | ||
技術領域
本發明涉及屬于模式識別技術領域,特別涉及一種用于模式分類的特征選擇方法,可應用于數據挖掘、故障診斷等行業特征降維。
背景技術
特征選擇通過刪除冗余特征,構建特征子集,實現數據降維,不僅可以降低計算成本,還可以提高分類精度,近年來,已經成為模式識別、機器學習、數據挖掘和智能故障診斷等領域的研究熱點。
特征選擇根據樣本類別信息是否已知,分為有監督特征選擇和無監督特征選擇兩種。對于有監督特征選擇方法,由于樣本類別信息已知,因此可定義評價函數來度量各子集的分類精度,使得特征子集只包括那些能夠引導樣本正確分類的特征,常見的有監督特征選擇方法有:Fisher準則、Relief方法和Relief-F方法。然而,現實中實際存在的大量數據,類別信息通常是未知的或不完整的,將這些數據的類別逐一標出,工作量巨大,往往是不可能實現的。在這樣的情況下,無監督特征降維將變得尤為重要。主成分分析(PCA)是一種應用廣泛的無監督特征降維方法,但該方法獲得的降維結果并非某些原始特征的組合,而是構造了新的特征,這些特征沒有清晰的含義,因此無法直觀地理解數據。于是,人們提出了一些無監督特征選擇方法,如有學者提出的一種利用信息增益的SUD特征選擇方法。
顯然,在有監督模式下,常常可以運用Fisher準則得到最佳鑒別矢量,使得樣本在該矢量上投影類內距離最小而類間距離最大,為了將該思想用于無監督模式,研究人員做了大量的研究。例如曹蘇群等人提出可一種基于模糊Fisher準則的聚類方法(曹蘇群,王士同,陳曉峰等,“基于模糊Fisher準則的半模糊聚類算法,”電子與信息學報,vol.30,no.9,pp.2162-2165,2008.),該方法通過最大化模糊Fisher準則,借助于無監督模式下的最佳鑒別矢量輔助線,實現在該線上投影類間最大、類內最小的聚類。但同樣有研究人員針對該聚類方法指出該方法中提出的聚類中心公式是局部解且無法求得全局解(支曉斌,范九倫,“基于模糊Fisher準則的自適應降維模糊聚類算法,”電子與信息學報,vol.31,no.11,pp.2653-2658,2009.);另外有研究人員根據上述聚類方法分別求得與無監督模式下最佳鑒別矢量正交、共軛正交或者既正交又共軛正交的第二個鑒別矢量,由這兩個鑒別矢量分別構成無監督最佳鑒別平面、無監督統計不相關最佳鑒別平面或改進的無監督統計不相關最佳鑒別平面,通過該最佳鑒別平面,實現無監督特征降維(曹蘇群,王士同,王駿.基于無監督最佳鑒別平面的人臉識別.計算機應用研究,2010,27(6):2352-2355;曹蘇群,王士同.無監督模式下統計不相關最佳鑒別平面.計算機應用,2010,30(7):1859-1862;曹蘇群,王駿,王士同.正交約束的無監督統計不相關最佳鑒別平面.計算機工程與科學,2010,32(5):34-36.)。這些方法在實際應用中存在兩個問題:
1.高維數據只能通過這些最佳鑒別平面降為二維數據;
2.與PCA一樣,這些方法都屬于特征抽取,即最終得到的降維數據各維并非原有特征,因此難以界定這些特征的具體含義。
如何利用該最佳鑒別矢量實現特征選擇,對于解決無監督特征選擇存在的:缺乏類別信息,無法給定分離性度量準則以選取便于類別區分的特征等問題有著重要的意義。
發明內容
本發明的目的是針對現有選擇方法存在的問題,提供一種在無監督模式下基于無監督最佳鑒別矢量以實現數據降維的用于模式分類的特征選擇方法。
本發明的技術方案是在采用模糊Fisher準則為目標函數求得無監督最佳鑒別矢量的基礎上,根據該矢量中每一維的值求得每個特征重要性權值,按照該權值大小進行特征排序,通過給定閾值,選取特征子集,進而實現數據降維。
為便于理解本發明方案,首先對本發明的理論基礎進行描述如下:
設隸屬度函數uij∈[0,1]且其中uij表示第j個樣本屬于第i類的程度,c為分割聚類數目,xj為N維列向量,此處i、j為變量且取值區間分別為:[1,c]、[1,N],設m為模糊指數且m>1。
在樣本空間,定義各類樣本均值向量記為mi,模糊類內散布矩陣記為Sfw:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮陰工學院,未經淮陰工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310304574.3/2.html,轉載請聲明來源鉆瓜專利網。





