[發(fā)明專利]一種基于模糊ISODATA的特征選取方法無效
| 申請(qǐng)?zhí)枺?/td> | 201210324487.X | 申請(qǐng)日: | 2012-09-05 |
| 公開(公告)號(hào): | CN102945238A | 公開(公告)日: | 2013-02-27 |
| 發(fā)明(設(shè)計(jì))人: | 劉全金;趙志敏;俞曉磊;汪東華;李穎新 | 申請(qǐng)(專利權(quán))人: | 南京航空航天大學(xué);江蘇省標(biāo)準(zhǔn)化研究院 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210016*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 模糊 isodata 特征 選取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及特征選取方法,尤其涉及高維集數(shù)據(jù)的特征選取方法,屬于機(jī)器學(xué)習(xí)領(lǐng)域。
背景技術(shù)
特征選取是機(jī)器學(xué)習(xí)中樣本分類和識(shí)別的重要環(huán)節(jié)之一,其目的是降低特征維數(shù),選取對(duì)樣本分類至關(guān)重要的具有豐富類別信息的關(guān)鍵特征,提高分類質(zhì)量和效率。特征選取具有很高的實(shí)際應(yīng)用價(jià)值,對(duì)樣本分類、聚類及亞型發(fā)現(xiàn),特別是生物信息學(xué)領(lǐng)域的基因表達(dá)譜樣本的類型識(shí)別有重要的作用。
為滿足特征選取實(shí)際運(yùn)用的需要,目前有大量的特征選取方法,其中絕大部分為將filter和wrapper方法相結(jié)合,基于分類模型進(jìn)行的特征選取方法。(1)Guyon等人提出基于支持向量機(jī)的特征選取方法,I.Guyon,J.Weston,S.Barnhill,et?al.,Gene?selection?for?cancer?classification?using?support?vector?machines,Machine?Learning,2002,46(1-3),他們對(duì)兩個(gè)基因表達(dá)譜數(shù)據(jù)集進(jìn)行了特征基因選取。(2)Cai等人提出基于互信量技術(shù)的特征選取方法,R.C.Cai,Z.F.Hao,X.W.Yang,W.Wen,An?efficient?gene?selection?algorithm?based?on?mutual?information,Neurocomputing,2009(72),對(duì)基因表達(dá)譜數(shù)據(jù)集進(jìn)行了特征基因選取。
近年來,有文獻(xiàn)研究如何融合分類算法和聚類算法的優(yōu)勢(shì),利用二者的互補(bǔ)性進(jìn)行特征選取和分類。(1)Yousef等人提出基于遞歸聚類剔除過程的選取特征基因選取方法,M.Yousef,S.Jung,LC?Showe,MK?Showe,Recursive?Cluster?Elimination(RCE)for?classification?and?feature?selection?from?gene?expression?data,BMC?Bioinformatics,2007,8(1)144,這種方法在特征選取過程中引入聚類算法。(2)Cai等人提出分類和聚類算法相結(jié)合的學(xué)習(xí)框架,W.L.Cai,S.C.Chen,and?D.Q.Zhang,A?simultaneous?learning?framework?for?clustering?and?classification,Pattern?Recognition,2009,42(7),這種方法以聚類時(shí)類內(nèi)數(shù)據(jù)的緊密程度為參數(shù),完成對(duì)聚類和分類的目標(biāo)函數(shù)的合并和補(bǔ)充。
上述方法選取的關(guān)鍵特征有較強(qiáng)的分類能力,但聚類能力相對(duì)較弱。
發(fā)明內(nèi)容
本發(fā)明針對(duì)上述特征選取方法的不足,利用分類和聚類算法的互補(bǔ)性,提出基于模糊ISODATA(Interactive?Self-Organizing?Data,又稱模糊C均值聚類算法)的靈敏度分析方法,從高維數(shù)據(jù)集中選取出具有較強(qiáng)分類和聚類能力的關(guān)鍵信息特征。
本發(fā)明方法的流程如圖1所示,該方法主要包括如下四個(gè)步驟:
第一步驟:數(shù)據(jù)集分割步驟,將數(shù)據(jù)集隨機(jī)分成訓(xùn)練集、校驗(yàn)集和獨(dú)立測(cè)試集,訓(xùn)練集用于生成候選特征子集,校驗(yàn)集用于校驗(yàn)候選特征子集所含的樣本類別信息并從中選擇確定最佳特征子集,獨(dú)立測(cè)試集用于進(jìn)一步測(cè)試最佳特征子集的分類和聚類性能;
第二步驟:特征靈敏度分析步驟,在遞歸特征選取過程中,對(duì)訓(xùn)練集樣本進(jìn)行模糊ISODATA聚類,分析特征對(duì)聚類類別隸屬度的靈敏度,逐級(jí)篩選高靈敏度的特征組成候選特征子集;
特征靈敏度分析方法分為如下幾步:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京航空航天大學(xué);江蘇省標(biāo)準(zhǔn)化研究院,未經(jīng)南京航空航天大學(xué);江蘇省標(biāo)準(zhǔn)化研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210324487.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種基于模糊ISODATA的特征選取方法
- 一種參數(shù)自適應(yīng)設(shè)置及自動(dòng)調(diào)整的雷達(dá)輻射源信號(hào)分選方法
- 自迭代病歷檔案聚類分析系統(tǒng)
- 一種基于ISODATA的干擾源分類識(shí)別算法
- 一種時(shí)序參數(shù)聚類的典型仿真條件推薦方法
- 一種快速生成標(biāo)準(zhǔn)偽裝迷彩主色的方法
- 基于MSER和ISODATA相結(jié)合的車牌定位方法
- 一種圖片顏色提取方法及裝置
- 基于SURF特征檢測(cè)和ISODATA聚類算法的無人機(jī)障礙物檢測(cè)方法
- 一種ISODATA聚類算法運(yùn)行控制參數(shù)優(yōu)化方法、存儲(chǔ)介質(zhì)及終端





