[發(fā)明專利]一種基于模糊ISODATA的特征選取方法無效
| 申請(qǐng)?zhí)枺?/td> | 201210324487.X | 申請(qǐng)日: | 2012-09-05 |
| 公開(公告)號(hào): | CN102945238A | 公開(公告)日: | 2013-02-27 |
| 發(fā)明(設(shè)計(jì))人: | 劉全金;趙志敏;俞曉磊;汪東華;李穎新 | 申請(qǐng)(專利權(quán))人: | 南京航空航天大學(xué);江蘇省標(biāo)準(zhǔn)化研究院 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210016*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 模糊 isodata 特征 選取 方法 | ||
1.一種基于模糊ISODATA的特征選取方法,其特征在于,包括如下步驟:
第一步驟:數(shù)據(jù)集分割步驟,將數(shù)據(jù)集隨機(jī)分成訓(xùn)練集、校驗(yàn)集和獨(dú)立測(cè)試集,訓(xùn)練集用于生成候選特征子集,校驗(yàn)集用于校驗(yàn)候選特征子集所含的樣本類別信息并從中選擇確定最佳特征子集,獨(dú)立測(cè)試集用于進(jìn)一步測(cè)試最佳特征子集的分類和聚類性能;
第二步驟:特征靈敏度分析步驟,在遞歸特征選取過程中,對(duì)訓(xùn)練集樣本進(jìn)行模糊ISODATA聚類(Fuzzy?Interactive?Self-Organizing?Data,又稱模糊C均值聚類算法),分析特征對(duì)聚類類別隸屬度的靈敏度,并由靈敏度值較高的特征組成候選特征子集;
第三步驟:候選特征子集校驗(yàn)步驟,以候選特征子集F在校驗(yàn)集中的分類和聚類結(jié)果作為選擇最佳特征子集的目標(biāo)函數(shù)Object(F),以目標(biāo)函數(shù)Object(F)衡量候選特征子集所含的類別信息,選擇目標(biāo)函數(shù)最大的候選特征子集為最佳特征子集;
第四步驟:最佳特征子集測(cè)試步驟,用獨(dú)立測(cè)試集測(cè)試第三步驟選擇的最佳特征子集的分類和聚類能力,分類器和聚類算法與第三步驟的分類器和聚類算法相同,用訓(xùn)練集數(shù)據(jù)訓(xùn)練過的分類器對(duì)獨(dú)立測(cè)試集的樣本分類,用聚類算法對(duì)獨(dú)立測(cè)試集的樣本聚類,分類和聚類結(jié)果直觀反映最佳特征子集的分類和聚類能力。
2.根據(jù)權(quán)利要求1所述的基于模糊ISODATA的特征選取方法,其特征在于,上述第二步驟中的特征靈敏度計(jì)算分析方法,包括如下步驟:
已知:訓(xùn)練集n個(gè)樣本分別屬于s個(gè)類別,每個(gè)樣本有m個(gè)特征,第k個(gè)樣本Xk={xk1,...,xkj,...,xkm},其中xkj為樣本Xk的第j個(gè)特征。經(jīng)模糊ISODATA聚類后,樣本Xk對(duì)第i個(gè)聚類類別的隸屬度
步驟1:對(duì)訓(xùn)練集樣本進(jìn)行模糊ISODATA聚類,根據(jù)樣本對(duì)聚類類別的隸屬度,分析特征對(duì)類別隸屬度的靈敏度其中xpj為樣本Xp的第j個(gè)特征值;
步驟2:樣本Xk第j個(gè)特征對(duì)隸屬度uik的靈敏度計(jì)算公式為:
當(dāng)k=p時(shí),
當(dāng)k≠p時(shí),
式中,
步驟3:計(jì)算第j個(gè)特征對(duì)隸屬度的靈敏度:
3.根據(jù)權(quán)利要求1所述的基于模糊ISODATA的特征選取方法,其特征在于,上述第三步驟具體包括如下步驟:
步驟1:分類校驗(yàn),用支持向量機(jī)(Support?Vector?Machine,SVM)和K近鄰(K-nearest?neighbor?algorithm,KNN)兩個(gè)分類器檢驗(yàn)候選特征子集的分類能力,先在訓(xùn)練集中訓(xùn)練分類器,再用訓(xùn)練過的分類器對(duì)校驗(yàn)集樣本分類;
步驟2:聚類校驗(yàn),用層次聚類(Hierarchical?Clustering,Clustering)算法檢驗(yàn)候選特征子集的聚類能力,對(duì)校驗(yàn)集樣本聚類;
步驟3:最佳特征子集選擇,以候選特征子集F在校驗(yàn)集中的分類和聚類正確率作為選擇最佳特征子集的目標(biāo)函數(shù)Object(F)=rightSVM(F)+rightKNN(F)+rightClustering(F),其中rightSVM(F)為支持向量機(jī)對(duì)校驗(yàn)集樣本的分類正確率,rightKNN(F)為K近鄰對(duì)校驗(yàn)集樣本的分類正確率,rightClustering(F)為層次聚類算法對(duì)校驗(yàn)集樣本的聚類正確率,以目標(biāo)函數(shù)衡量候選特征子集所含的類別信息,選擇目標(biāo)函數(shù)最高的候選特征子集為最佳特征子集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京航空航天大學(xué);江蘇省標(biāo)準(zhǔn)化研究院,未經(jīng)南京航空航天大學(xué);江蘇省標(biāo)準(zhǔn)化研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210324487.X/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種基于模糊ISODATA的特征選取方法
- 一種參數(shù)自適應(yīng)設(shè)置及自動(dòng)調(diào)整的雷達(dá)輻射源信號(hào)分選方法
- 自迭代病歷檔案聚類分析系統(tǒng)
- 一種基于ISODATA的干擾源分類識(shí)別算法
- 一種時(shí)序參數(shù)聚類的典型仿真條件推薦方法
- 一種快速生成標(biāo)準(zhǔn)偽裝迷彩主色的方法
- 基于MSER和ISODATA相結(jié)合的車牌定位方法
- 一種圖片顏色提取方法及裝置
- 基于SURF特征檢測(cè)和ISODATA聚類算法的無人機(jī)障礙物檢測(cè)方法
- 一種ISODATA聚類算法運(yùn)行控制參數(shù)優(yōu)化方法、存儲(chǔ)介質(zhì)及終端





