[發(fā)明專利]基于進(jìn)退型的包裹式特征選擇方法、裝置、介質(zhì)及應(yīng)用在審
| 申請(qǐng)?zhí)枺?/td> | 202010693825.1 | 申請(qǐng)日: | 2020-07-17 |
| 公開(kāi)(公告)號(hào): | CN111881963A | 公開(kāi)(公告)日: | 2020-11-03 |
| 發(fā)明(設(shè)計(jì))人: | 游海濤;徐華卿;洪晶瑾;王琳;吳昊;梁興通 | 申請(qǐng)(專利權(quán))人: | 易聯(lián)眾信息技術(shù)股份有限公司 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
| 代理公司: | 廈門加減專利代理事務(wù)所(普通合伙) 35234 | 代理人: | 王春霞 |
| 地址: | 361008 福建省廈*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 進(jìn)退 包裹 特征 選擇 方法 裝置 介質(zhì) 應(yīng)用 | ||
本發(fā)明提供一種基于進(jìn)退型的包裹式特征選擇方法、裝置、介質(zhì)及應(yīng)用,包括以下步驟:輸入原始特征集合X,采用順序前進(jìn)法SFS特征選擇方法,得到最優(yōu)特征子集X;根據(jù)X,采用順序后退法SBS特征選擇方法,得到特征集合S并輸出S。SFS是每次從原始特征總集拿出一個(gè)特征加入當(dāng)前特征集合,如果加入后的特征集合能使得可分性判據(jù)值最優(yōu)則保留下來(lái),SBS是所有原始特征總集直接作為當(dāng)前特征集合,每次從當(dāng)前特征集合中拿出一個(gè)特征并判斷拿出后的特征集合的可分性判據(jù)值,如果拿出的特征使得可分性判據(jù)值最優(yōu)則這個(gè)特征就永久拿出。通過(guò)SFS+SBS可以大概率搜索到相比單獨(dú)使用SFS或SBS表現(xiàn)更好的特征組合。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域,特別涉及一種基于進(jìn)退型的包裹式特征選擇方法、裝置、介質(zhì)及應(yīng)用。
背景技術(shù)
特征工程是利用機(jī)器學(xué)習(xí)算法建模必不可少的環(huán)節(jié),特征工程的目的是提高模型的擬合能力和泛化能力。特征工程主要分為特征選擇和特征提取,順序前進(jìn)法(SequentialForward Selection,SFS)和順序后退法(Sequential Backward Selection,SBS)均屬于特征選擇算法。窮舉法和分支定界法都屬于最優(yōu)搜索算法,它們肯定可以搜索到可分性判據(jù)值最優(yōu)的特征組合,但是它們的計(jì)算量都很大,并且分支定界法的單調(diào)性條件在實(shí)際中也很難滿足。因此便有了次優(yōu)搜索算法,次優(yōu)搜索算法不以尋求最優(yōu)為目的,而是考慮在計(jì)算量比較小的情況下比較優(yōu)的特征組合,相比于窮舉法和分支定界法大大降低了計(jì)算量。
SFS和SBS都屬于次優(yōu)搜索算法,最簡(jiǎn)單的次優(yōu)搜索算法是單獨(dú)考慮每單個(gè)特征的可分性判據(jù)值,可分性判據(jù)值越高特征就越重要,但是這種方法完全沒(méi)有考慮到特征之間的相關(guān)性,因此便有了SFS和SBS。SFS是每次從原始特征總集拿出一個(gè)特征加入當(dāng)前特征集合,如果加入后的特征集合能使得可分性判據(jù)值最優(yōu)則保留下來(lái)(不放回原始特征總集),繼續(xù)迭代直至原始特征總集中的特征數(shù)為0。SBS是所有原始特征總集直接作為當(dāng)前特征集合,每次從當(dāng)前特征集合中拿出一個(gè)特征并判斷拿出后的特征集合的可分性判據(jù)值,如果拿出的特征使得可分性判據(jù)值最優(yōu)則這個(gè)特征就永久拿出,不放回當(dāng)前特征集合,繼續(xù)迭代這個(gè)過(guò)程直至當(dāng)前特征集合中的特征數(shù)為0。由上所述可以看出雖然SFS和SBS不一定能夠找到最優(yōu)的特征組合,但是相比于只判斷單個(gè)特征的次優(yōu)搜索SFS和SBS考慮了大部分特征之間的相關(guān)性,雖然SFS和SBS計(jì)算量也較大,但是效果比單特征次優(yōu)搜索好得多。
SFS每次加入的特征只考慮了與之前的特征的相關(guān)性,沒(méi)有考慮到后加入的特征的相關(guān)性;而SBS每次刪除特征只考慮了刪除后的特征組合之間的相關(guān)性,沒(méi)有考慮到刪除后的子集特征組合之間的相關(guān)性。
發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)的順序前進(jìn)法SFS和順序后退法SBS只考慮加入或刪除特征后的相關(guān)性的問(wèn)題,本發(fā)明提供的一種基于進(jìn)退型的包裹式特征選擇方法、裝置、介質(zhì)及應(yīng)用,避免了只用一種次優(yōu)搜索只考慮加入或刪除特征后的相關(guān)性的問(wèn)題,解決了SFS每次加入特征只考慮了與之前的特征的相關(guān)性,沒(méi)有考慮到后加入的特征的相關(guān)性的問(wèn)題。
第一方面,本申請(qǐng)實(shí)施例提供了一種基于進(jìn)退型的包裹式特征選擇方法,包括以下步驟:
輸入原始特征集合X,采用順序前進(jìn)法SFS特征選擇方法,得到最優(yōu)特征子集X;
根據(jù)X,采用順序后退法SBS特征選擇方法,得到特征集合S并輸出S。
進(jìn)一步地,順序前進(jìn)法SFS特征選擇方法中包括以下步驟:
初始化,輸入d個(gè)特征的原始特征集合X,設(shè)置特征子集X',循環(huán)次數(shù)為0,設(shè)置早停輪數(shù)為n,初始化無(wú)提升特征組合計(jì)數(shù)器為0;
計(jì)算將任意未被選擇的特征加入后的可分性判據(jù)值J,根據(jù)可分性判據(jù)值J大小尋找最優(yōu)特征,將最優(yōu)特征加入特征子集X';
如果加入特征后的可分性判據(jù)值J比原來(lái)的可分性判據(jù)值J小則無(wú)提升特征組合計(jì)數(shù)器增加1;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于易聯(lián)眾信息技術(shù)股份有限公司,未經(jīng)易聯(lián)眾信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010693825.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





