[發(fā)明專利]面向高維和不平衡數(shù)據(jù)分類(lèi)的集成在審
| 申請(qǐng)?zhí)枺?/td> | 201610218160.2 | 申請(qǐng)日: | 2016-04-08 |
| 公開(kāi)(公告)號(hào): | CN107273387A | 公開(kāi)(公告)日: | 2017-10-20 |
| 發(fā)明(設(shè)計(jì))人: | 李臻 | 申請(qǐng)(專利權(quán))人: | 上海市玻森數(shù)據(jù)科技有限公司 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 上海申新律師事務(wù)所31272 | 代理人: | 夏海天 |
| 地址: | 200000 上海市寶*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 維和 不平衡 數(shù)據(jù) 分類(lèi) 集成 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及面向高維和不平衡數(shù)據(jù)分類(lèi)的集成。
背景技術(shù)
數(shù)據(jù)挖掘研究正面臨各種數(shù)據(jù)問(wèn)題的挑戰(zhàn),不同特性的數(shù)據(jù)增加了算法研究的復(fù)雜度。其中,對(duì)具有高維和不平衡特性的數(shù)據(jù)分類(lèi)是近年的研究焦點(diǎn)?,F(xiàn)有方法僅考慮了高維或不平衡的某一特性,但大量現(xiàn)實(shí)數(shù)據(jù)卻同時(shí)展現(xiàn)了雙重特性。在分類(lèi)具有雙重特性的數(shù)據(jù)時(shí),單獨(dú)針對(duì)高維或不平衡數(shù)據(jù)的分類(lèi)算法面臨性能瓶頸。如何有效分類(lèi)高維且不平衡的數(shù)據(jù)是應(yīng)用研究亟需解決的問(wèn)題。分類(lèi)高維不平衡數(shù)據(jù)的方法有兩種:預(yù)處理(特征選擇和取樣)再分類(lèi)和直接分類(lèi)。預(yù)處理后的數(shù)據(jù)可以直接用于已有分類(lèi)算法,但數(shù)據(jù)損失了部分特征和實(shí)例信息,預(yù)處理的效果將影響分類(lèi)性能。直接分類(lèi)可以保留全部數(shù)據(jù)信息,但分類(lèi)算法必須兼顧考慮高維和不平衡特性,增加了設(shè)計(jì)的復(fù)雜度。本文從這兩個(gè)方面展開(kāi)研究,針對(duì)預(yù)處理高維且不平衡數(shù)據(jù)時(shí),先特征選擇還是先取樣問(wèn)題,通過(guò)實(shí)驗(yàn)對(duì)比獲得特征選擇先于取樣。
更優(yōu)的結(jié)論;針對(duì)先特征選擇面臨的數(shù)據(jù)不平衡問(wèn)題,提出了不平衡數(shù)據(jù)特征選擇算法BRFVS;針對(duì)預(yù)處理數(shù)據(jù)可能導(dǎo)致特征或?qū)嵗膿p失問(wèn)題,在基于特征的集成學(xué)習(xí)框架下,從隨機(jī)方式(隨機(jī)森林)和選擇方式(集成特征選擇)兩個(gè)方面提出了代價(jià)敏感隨機(jī)森林算法CSRF和基于集成特征選擇的分類(lèi)算法IEFS。本文所做具體工作如下:
1)對(duì)比特征選擇和取樣順序?qū)Ψ诸?lèi)性能的影響。在特定領(lǐng)域(軟件缺陷檢測(cè))的實(shí)驗(yàn)研究結(jié)果顯示,先取樣再特征選擇后的分類(lèi)效果更優(yōu)。由于實(shí)驗(yàn)數(shù)據(jù)單一,該結(jié)論不具有普及性。而在多個(gè)其他領(lǐng)域的驗(yàn)證研究顯示,特征選擇和取樣的順序并不是影響分類(lèi)性能的關(guān)鍵因素。但因?yàn)橐肓巳藶樵肼曇蛩兀摻Y(jié)論不適用于無(wú)噪聲的情況。本文從UCI數(shù)據(jù)集中,按照應(yīng)用領(lǐng)域、維數(shù)和不平衡程度篩選了12個(gè)實(shí)驗(yàn)數(shù)據(jù)集。以AUC為評(píng)價(jià)標(biāo)準(zhǔn),測(cè)試了過(guò)濾式和封裝式特征選擇方法與取樣方法組合預(yù)處理后對(duì)分類(lèi)性能的影響。不 同于上述結(jié)論,先特征選擇再取樣的平均AUC性能在12個(gè)數(shù)據(jù)集上的表現(xiàn)優(yōu)于先取樣再特征選擇。該結(jié)論可為預(yù)處理高維不平衡數(shù)據(jù)提供實(shí)踐指導(dǎo)。
2)提出不平衡特征選擇算法BRFVS。目前針對(duì)不平衡數(shù)據(jù)特征選擇的算法相對(duì)較少。
已有的EFSBS算法屬于過(guò)濾式方法,沒(méi)有充分利用分類(lèi)算法的反饋;PREE算法盡管利用了分類(lèi)的性能反饋,但不能處理離散型特征。BRFVS是一個(gè)既能處理離散型,又能處理連續(xù)型特征,同時(shí)能充分利用分類(lèi)算法反饋的特征選擇算法。BRFVS借鑒了隨機(jī)森林算法的思想,采用欠取樣產(chǎn)生多個(gè)平衡數(shù)據(jù)集,在各數(shù)據(jù)集上利用隨機(jī)森林變量選擇方法計(jì)算特征重要性度量值。最終的度量值通過(guò)對(duì)各數(shù)據(jù)集的度量值加權(quán)求和獲得。數(shù)據(jù)集的權(quán)重由其與集成預(yù)測(cè)的一致性程度決定。實(shí)驗(yàn)對(duì)比了隨機(jī)森林超參數(shù)K的取值對(duì)算法性能的影響,結(jié)果顯示,當(dāng)K取值為M時(shí),采用BRFVS特征選擇后再取樣的分類(lèi)性能優(yōu)于普通特征選擇后再取樣的分類(lèi)性能。進(jìn)一步驗(yàn)證了先特征選擇后取樣更優(yōu)的實(shí)驗(yàn)結(jié)論。提出代價(jià)敏感隨機(jī)森林算法CSRF。盡管直接分類(lèi)可不受預(yù)處理性能的影響,但已有的高維數(shù)據(jù)分類(lèi)算法不能有效分類(lèi)不平衡數(shù)據(jù),而不平衡數(shù)據(jù)分類(lèi)算法未考慮數(shù)據(jù)展現(xiàn)高維特性的情況。CSRF在隨機(jī)森林的決策樹(shù)屬性分裂度量中引入測(cè)試代價(jià)和誤分類(lèi)代價(jià),這兩種代價(jià)分別相關(guān)于小類(lèi)數(shù)據(jù),通過(guò)整對(duì)小類(lèi)的關(guān)注度提高對(duì)小類(lèi)的正確識(shí)別率。實(shí)驗(yàn)對(duì)比了CSRF算法、原始隨機(jī)森林算法和僅引入誤分類(lèi)代價(jià)的隨機(jī)森林算法。CSRF在AUC性能,尤其是小類(lèi)的正確識(shí)別率上有明顯優(yōu)勢(shì),同時(shí),CSRF算法的分類(lèi)性能也明顯高于預(yù)處理后再分類(lèi)的分類(lèi)性能。
4)提出基于集成特征選擇的高維不平衡數(shù)據(jù)分類(lèi)算法IEFS。已有集成特征選擇算法的目標(biāo)函數(shù)僅考慮多樣性和準(zhǔn)確性的加權(quán)求和,未考慮不平衡特性,不適用于不平衡數(shù)據(jù)分類(lèi)。IEFS算法選擇Kohavi-Wolpert方差作為多樣性度量方法,在其中引入獎(jiǎng)懲因子增加對(duì)小類(lèi)的關(guān)注,并采用爬山法搜索解空間,可兼顧考慮多樣性、準(zhǔn)確性和不平衡性。實(shí)驗(yàn)結(jié)果顯示,此方法在AUC分類(lèi)性能上略差于CSRF分類(lèi)算法,但是其在AUC分類(lèi)性能和小類(lèi)的識(shí)別上明顯高于C4.5和隨機(jī)森林算法。盡管先特征選擇面臨數(shù)據(jù)不平衡問(wèn)題,但不論是采用BRFVS算法還是普通特征選擇算法,先預(yù)處理高維問(wèn)題再 處理不平衡問(wèn)題的方式將產(chǎn)生更優(yōu)的分類(lèi)性能。直接分類(lèi)與預(yù)處理再分類(lèi)的性能對(duì)比顯示,直接分類(lèi)方法在AUC和小類(lèi)正確識(shí)別率上優(yōu)于預(yù)處理方法,但時(shí)間代價(jià)更大,適用于離線處理方式。IEFS算法由于受到搜索方法的局限性,展現(xiàn)的性能則略差于CSRF算法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海市玻森數(shù)據(jù)科技有限公司,未經(jīng)上海市玻森數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610218160.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類(lèi)專利
- 專利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





