[發(fā)明專利]一種基于特征交互性的特征選擇方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011495851.X | 申請(qǐng)日: | 2020-12-17 |
| 公開(公告)號(hào): | CN112633346A | 公開(公告)日: | 2021-04-09 |
| 發(fā)明(設(shè)計(jì))人: | 周紅芳;安蕾 | 申請(qǐng)(專利權(quán))人: | 西安理工大學(xué) |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 王敏強(qiáng) |
| 地址: | 710048 陜*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 特征 交互 選擇 方法 | ||
本發(fā)明公開了一種基于特征交互性的特征選擇方法,包括:對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理;將預(yù)處理后的數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集;將訓(xùn)練集中SU(fi,C)0的特征并入Slist子集中,先通過(guò)SU值、歸一化純粹交互分?jǐn)?shù)去除數(shù)據(jù)集中的冗余特征,再采用子集評(píng)價(jià)函數(shù)對(duì)不相關(guān)特征進(jìn)行剔除,得到特征子集;將特征子集輸入分類器中建立分類器模型;通過(guò)測(cè)試集對(duì)分類器模型進(jìn)行測(cè)試。同時(shí)考慮冗余特征和特征間的交互作用,采用上述方式得到的特征進(jìn)行分類,與現(xiàn)有的特征選擇算法相比,在不同分類器上的分類準(zhǔn)確率、宏觀?F1值都優(yōu)于這六種特征選擇算法。
技術(shù)領(lǐng)域
本發(fā)明屬于技術(shù)領(lǐng)域,涉及一種基于特征交互性的特征選擇方法。
背景技術(shù)
信息化的今天,我們的生活之中充斥著越來(lái)越多的數(shù)據(jù),雖然這些大規(guī)模、高維度的數(shù)據(jù)為我們提供了越來(lái)越豐富的信息,但在這樣的數(shù)據(jù)集上建立有效的預(yù)測(cè)模型變得越來(lái)越困難。同時(shí),大量的不相關(guān)和冗余特征會(huì)對(duì)數(shù)據(jù)挖掘模型產(chǎn)生負(fù)面影響,從而降低模型的性能的應(yīng)用。因此,我們需要剔除數(shù)據(jù)當(dāng)中的冗余特征,并保留相關(guān)性、交互性較大的特征,降低無(wú)關(guān)冗余特征對(duì)于樣本預(yù)測(cè)的影響,提升預(yù)測(cè)的正確性及效率。
特征選擇是數(shù)據(jù)挖掘中非常重要的一個(gè)步驟,通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行特征選擇,可以剔除不相關(guān)或冗余的特征,降低了由于不相關(guān)或冗余特征這些無(wú)用特征引入的噪聲影響。并刪除這些無(wú)用特征,從而達(dá)到減少特征個(gè)數(shù),提高模型精確度,減少運(yùn)行時(shí)間的目的。特征選擇過(guò)程通過(guò)識(shí)別和刪除盡可能多的不相關(guān)和冗余特征來(lái)提高數(shù)據(jù)質(zhì)量,這是由于不相關(guān)特征對(duì)于提高后期學(xué)習(xí)算法的預(yù)測(cè)精度是無(wú)用的甚至是有害的,而冗余特征由于攜帶的信息已蘊(yùn)含于其他特征中而不會(huì)得到更優(yōu)的預(yù)測(cè)模型。
目前常見的特征選擇方法大致可以分為三類:過(guò)濾式、包裹式和嵌入式。過(guò)濾式特征選擇的過(guò)程獨(dú)立于數(shù)據(jù)分類的過(guò)程,主要優(yōu)點(diǎn)是計(jì)算速度快、復(fù)雜度低,缺點(diǎn)是難以確定由過(guò)濾方法選擇的屬性是否能使特定的分類器的分類精度最大。封裝式特征選擇算法將屬性選擇的過(guò)程放到機(jī)器學(xué)習(xí)算法過(guò)程中,通過(guò)后面的學(xué)習(xí)算法的結(jié)果選擇最合適的特征子集。該方法將特征選擇和分類的決策進(jìn)行結(jié)合,因此分類準(zhǔn)確率高,缺點(diǎn)是計(jì)算復(fù)雜度高。嵌入式特征選擇方法將特征選擇過(guò)程嵌入到機(jī)器學(xué)習(xí)算法中,構(gòu)建訓(xùn)練模型的過(guò)程就是特征選擇的過(guò)程。
在特征選擇過(guò)程當(dāng)中,除了識(shí)別不相關(guān)和冗余特征,近年來(lái),特征選擇過(guò)程中一個(gè)很重要但通常被忽視的問(wèn)題就是特征間的交互性。大部分特征選擇算法基于不同的評(píng)價(jià)函數(shù)能夠有效識(shí)別不相關(guān)特征。但并不是所有算法都能夠識(shí)別冗余特征同時(shí)考慮到特征間的交互作用,一些算法在去除不相關(guān)和冗余特征的過(guò)程之中可能會(huì)導(dǎo)致過(guò)度刪除,將一些有用的特征誤判為冗余特征,分類準(zhǔn)確率較低。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于特征交互性的特征選擇方法,解決了現(xiàn)有技術(shù)中存在的分類準(zhǔn)確率較低問(wèn)題。
本發(fā)明所采用的技術(shù)方案是,一種基于特征交互性的特征選擇方法,包括以下步驟:
步驟1、建立數(shù)據(jù)集Data_set={d1,d2,d3,...dp},o=1,2,3...p,數(shù)據(jù)集中包括類別C={c1,c2,c3,...cm},i=1,2,3...m、特征F={f1,f2,f3,...fn},j=1,2,3,...n,對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理;
步驟2、將預(yù)處理后的數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集;
步驟3、將訓(xùn)練集中SU(fi,C)0的特征并入Slist子集中,先對(duì)Slist子集中強(qiáng)冗余特征進(jìn)行剔除,得到子集G,再采用子集評(píng)價(jià)函數(shù)對(duì)子集G中不相關(guān)特征進(jìn)行剔除,得到特征子集;
步驟4、將特征子集輸入分類器中建立分類器模型;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安理工大學(xué),未經(jīng)西安理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011495851.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





