[發(fā)明專利]一種不平衡數(shù)據(jù)分類方法在審
| 申請?zhí)枺?/td> | 201410473220.6 | 申請日: | 2014-09-17 |
| 公開(公告)號: | CN104239516A | 公開(公告)日: | 2014-12-24 |
| 發(fā)明(設(shè)計(jì))人: | 柏文陽;姚玉姝;周嵩 | 申請(專利權(quán))人: | 南京大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 江蘇圣典律師事務(wù)所 32237 | 代理人: | 胡建華 |
| 地址: | 210023 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 不平衡 數(shù)據(jù) 分類 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種不平衡數(shù)據(jù)分類方法,屬于計(jì)算機(jī)數(shù)據(jù)分析與挖掘領(lǐng)域,具體說是一種數(shù)據(jù)分類算法。
背景技術(shù)
不平衡數(shù)據(jù)集,即各個類擁有的樣本數(shù)量之間有較大差異的數(shù)據(jù)集。在不平衡數(shù)據(jù)集的二分類中,通常把樣本數(shù)量少的類稱為正類(positive?class),對應(yīng)的,樣本數(shù)量多的類稱為負(fù)類(negative?class)。數(shù)據(jù)不平衡性在當(dāng)前的應(yīng)用中十分常見,如醫(yī)療診斷、入侵檢測、預(yù)防詐騙、從衛(wèi)星圖像分辨事物等。分類時,正類的分類正確率是我們主要在意的問題。例如在疾病診斷中,健康者被誤診的情況會在復(fù)查時得到解決,然而癌癥患者被誤判為正常則可能會引起無法挽回的結(jié)果。
對于不平衡數(shù)據(jù)集的分類問題,近年來許多學(xué)者提出了各種解決方法,主要可以歸為數(shù)據(jù)和算法兩個層面的處理。數(shù)據(jù)層面處理是通過對數(shù)據(jù)重新抽取采樣達(dá)到降低數(shù)據(jù)不平衡度的目的,方法主要包括欠采樣(undersampling)、過采樣(oversampling)以及兩種方法的結(jié)合。無規(guī)則的欠采樣有可能會丟失重要樣本信息;過采樣可能會引起過學(xué)習(xí)的問題,還會增加訓(xùn)練時間;算法層面的處理方法大致集中在三類:代價(jià)敏感學(xué)習(xí)、支持向量機(jī)(Support?Vector?Machine,SVM)以及組合的方法。代價(jià)敏感學(xué)習(xí)根據(jù)情況調(diào)整懲罰參數(shù),在不平衡分類中,對正類錯分設(shè)置較大的懲罰參數(shù)可以提高分類器在正類上的分類效果,這類方法的效果依賴于設(shè)置的參數(shù);支持向量機(jī)相對于其他分類方法來說,對于數(shù)據(jù)不平衡性的敏感度比較低,如在文獻(xiàn)1:Japkowicz?N,Stephen?S.The?class?imbalance?problem:A?systematic?study[J].Intelligent?data?analysis,2002,6(5):429-449.中,Japkowicz等人通過實(shí)驗(yàn)比較了數(shù)據(jù)不平衡性對不同分類方法,包括決策樹C4.5、BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等的影響,結(jié)果表明支持向量機(jī)對數(shù)據(jù)不平衡行相對不敏感,因此在這個問題上,出現(xiàn)了很多基于支持向量機(jī)的方法;組合方法就是將幾種分類器結(jié)合起來,提高分類效果,組合方法需要對多種分類器之間的差異和偏向性進(jìn)行折中,而且容易引起過學(xué)習(xí)的問題。
支持向量機(jī)(Support?Vector?Machine)是90年代中期由Vapnik等人提出的一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,通過尋求最小化結(jié)構(gòu)風(fēng)險(xiǎn)來提高學(xué)習(xí)機(jī)泛化的能力。在給定的數(shù)據(jù)集上,支持向量機(jī)能夠訓(xùn)練出一個超平面,這個超平面可以把樣本正確地分成兩類,并且讓兩個類之間的間隔最大。
主動學(xué)習(xí)算法最早由Lewis等人提出,主要思想是:樣本由少量標(biāo)記樣本和大量未標(biāo)記樣本組成,先對標(biāo)記樣本訓(xùn)練,然后通過某種規(guī)則,從未標(biāo)記樣本中選擇一個(或多個)樣本,由專家標(biāo)記之后放到標(biāo)記類中,一起作為新一輪的訓(xùn)練集。這樣重復(fù)地訓(xùn)練、選擇、添加直到滿足停止條件。
在基于SVM的各種分類方法中,Greg?Schohn等人將主動學(xué)習(xí)的思想和支持向量機(jī)相結(jié)合,用主動學(xué)習(xí)的方法提高訓(xùn)練數(shù)據(jù)的質(zhì),減少訓(xùn)練數(shù)據(jù)的量,每次迭代過程中選擇離當(dāng)前SVM的分類超平面最近的數(shù)據(jù)點(diǎn)加入訓(xùn)練集。經(jīng)過多次迭代得到較優(yōu)的子集,支持向量機(jī)在挑選的子集上訓(xùn)練建模,得到的模型效果比在全局?jǐn)?shù)據(jù)上訓(xùn)練的模型更好,參見文獻(xiàn)2:Greg?Schohn,David?Cohn.Less?is?More:Active?Learning?with?Support?Vector?Machines[C]//ICML’00?Proceedings?of?the?Seventeenth?International?Conference?on?Machine?Learning.;Seyda?Ertekin等人根據(jù)距離分類平面最近的一個范圍內(nèi)數(shù)據(jù)的不平衡度能顯著降低,把主動學(xué)習(xí)的支持向量機(jī)應(yīng)用到不平衡數(shù)據(jù)集上,在迭代過程中選擇有效樣本時采用隨機(jī)抽樣的方法提高分類器訓(xùn)練效率,參見文獻(xiàn)3:Ertekin?S,Huang?J,Bottou?L,et?al.Learning?on?the?border:active?learning?in?imbalanced?data?classification[C]//Proceedings?of?the?sixteenth?ACM?conference?on?Conference?on?information?and?knowledge?management.ACM,2007:127-136.。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學(xué),未經(jīng)南京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410473220.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





