[發明專利]一種面向復雜模式分類的特征選擇方法在審
| 申請號: | 201710276865.4 | 申請日: | 2017-04-25 |
| 公開(公告)號: | CN107169509A | 公開(公告)日: | 2017-09-15 |
| 發明(設計)人: | 楊常清 | 申請(專利權)人: | 西安航空學院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 西安銘澤知識產權代理事務所(普通合伙)61223 | 代理人: | 俞曉明 |
| 地址: | 710077 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 復雜 模式 分類 特征 選擇 方法 | ||
技術領域
本發明涉及模式分類技術領域,具體為一種面向復雜模式分類的特征選擇方法。
背景技術
模式分類問題目前廣泛適用于社會的各個領域,如圖像分類、數據挖掘、信息檢索、信息提取、語音識別等,其處理方法通常包括以下幾個方面:樣本預處理、特征提取、特征選擇、分類。其中特征選擇是模式分類中重要的預處理過程。在模式分類中經過特征提取后的樣本往往還有大量的特征,特征選擇就是從這些大量的特征中過濾掉對分類無關或作用較小的特征,選擇出對分類非常有用的特征,以便分類器進行分類,因此特征選擇影響著模式分類的準確率和效率。
近年來,模式分類問題已經變得越來越復雜,主要表現在模式分類的類別增多,類與類之間的區別越來越微妙,待分類的樣本數越來越多,特征是否包含足夠的類別信息越來越難以確定,為了提高分類準確率,總是最大限度的提取特征,結果不僅使特征維度大,而且可能還會存在較大的相關性和冗余性,這給特征的進一步提取和分類器的實現帶來了很大的困難。為此,我們提出了一種面向復雜模式分類的特征選擇方法投入使用,以解決上述問題。
發明內容
本發明的目的在于提供一種面向復雜模式分類的特征選擇方法,以解決上述背景技術中提出的特征維度大,而且可能還會存在較大的相關性和冗余性,這給特征的進一步提取和分類器的實現帶來了很大的困難的問題。
為實現上述目的,本發明提供如下技術方案:一種面向復雜模式分類的特征選擇方法,該面向復雜模式分類的特征選擇方法的具體步驟如下:
S1:離散化數據集D中的連續特征,其結果使用D表示,每個特征的Gini指標值累加和Sum(Di)置0;
S2:計算特征的Gini系數,并根據計算特征進行重復操作;
S3:針對特征D1~Dm按Sum(Di)的大小進行升順排列得到
S4:在特征集的折線圖中找到急劇變化的點或拐點i0,若急劇變化的點數超過1個,則選取編號最大的拐點即為選擇的重要特征子集。
優選的,所述步驟S2中,Gini系數的計算具體過程如下:
S21:隨機選擇聚類閾值,采用一趟聚類算法對數據集D進行聚類;
S22:在聚類結果上計算每個特征Di的Gini系數G(Di);
S23:對Gini系數進行累加。
優選的,所述步驟S21中,一趟聚類算法的具體過程如下:
S211:初始時,簇集合為空,讀入一個新的對象;
S212:以讀入的新的對象構造一個新的簇;
S213:若已到數據庫結尾,則結束聚類算法過程,否則讀入新的對象,利用給定的距離定義,計算它與每個已有簇間的距離,并選擇最小的距離;
S214:若最小距離超過給定的半徑閾值,則轉入步驟S212中進行重新構造一個新的簇;
S215:否則將該對象并入具有最小距離的簇中并更新該簇的給分類特征值的統計頻度,轉入步驟S213中。
優選的,所述步驟S214中,聚類過程中聚類閾值采用抽樣技術來計算,其具體步驟如下:
S2141:在數據集D中隨機選擇N0對對象;
S2142:計算每對對象間的距離;
S2143:計算步驟S2142中對象間距離的平均值EX;
S2144:在0.5*EX和EX之間隨機取閾值。
優選的,所述步驟S22中,Gini系數的計算方法為,設數據集D經聚類后劃分為k個簇,D={C1,C2…,Ck},其中特征Di在簇上的Gini系數定義為:其中ni是特征Di的不同取值的個數,即特征被分成的類別數,p(Cit)表示特征Di的第t個取值在簇Ci中的頻率,特征Di的Gini指標值定義Di在各簇Ci上的Gini系數的加權平均:
與現有技術相比,本發明的有益效果是:本發明中采用多次重復計算減少聚類閾值對結果的影響,減小特征維度,避免出現特征提取后的相關性和冗余性,減少分類器的工作難度,能夠廣泛應用于各種復雜模式分類問題中,具有自適應能力強、適用范圍廣的優點。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安航空學院,未經西安航空學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710276865.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多功能文具盒
- 下一篇:一種學生用的多功能背包





