[發(fā)明專利]一種基于聚類下采樣的不平衡數(shù)據(jù)分類方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710784810.4 | 申請(qǐng)日: | 2017-09-04 |
| 公開(kāi)(公告)號(hào): | CN107688831A | 公開(kāi)(公告)日: | 2018-02-13 |
| 發(fā)明(設(shè)計(jì))人: | 曹路 | 申請(qǐng)(專利權(quán))人: | 五邑大學(xué) |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
| 代理公司: | 北京科億知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙)11350 | 代理人: | 湯東鳳 |
| 地址: | 529020 廣*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 聚類下 采樣 不平衡 數(shù)據(jù) 分類 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及模式識(shí)別的研究領(lǐng)域,特別涉及一種基于聚類下采樣的不平衡數(shù)據(jù)的分類方法。
背景技術(shù)
分類問(wèn)題是模式識(shí)別、機(jī)器學(xué)習(xí)等領(lǐng)域內(nèi)非常重要的一個(gè)研究?jī)?nèi)容,在現(xiàn)實(shí)生活中有非常廣泛的應(yīng)用,如銀行系統(tǒng)中的手寫數(shù)字識(shí)別、安保監(jiān)控系統(tǒng)中的人臉識(shí)別和網(wǎng)絡(luò)安全中的入侵檢測(cè)等。目前,處理分類問(wèn)題已經(jīng)有了一些相對(duì)成熟的分類方法,如:決策樹(shù)、K-近鄰、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等方法,其中,支持向量機(jī)以其完備的理論闡述和良好的實(shí)驗(yàn)結(jié)果受到廣泛關(guān)注。這些傳統(tǒng)的分類方法均是基于類分布平衡假設(shè)而提出的,其主要目的是提高整體的分類性能,對(duì)分布均勻的數(shù)據(jù)集顯示出很好的效果。但是,在現(xiàn)實(shí)生活中所獲取的數(shù)據(jù)往往會(huì)出現(xiàn)類別間樣本數(shù)量不平衡和噪聲干擾等特點(diǎn),使傳統(tǒng)的分類器無(wú)法達(dá)到預(yù)期效果。
不平衡數(shù)據(jù)集在現(xiàn)實(shí)生活中廣泛存在,如生產(chǎn)線上的殘次品檢測(cè)、信用卡欺詐檢測(cè)和疾病診斷等,在這些數(shù)據(jù)集中,樣本數(shù)較多的類別稱為多類,樣本數(shù)較少的類別稱為少類,多類的樣本數(shù)遠(yuǎn)遠(yuǎn)大于少類的樣本數(shù)。在不平衡數(shù)據(jù)集的分類問(wèn)題中,少類樣本的識(shí)別往往是分類的重點(diǎn),如生產(chǎn)線上的產(chǎn)品,大多數(shù)都屬于合格產(chǎn)品,僅有一小部分是殘次品,如果使用傳統(tǒng)的分類方法,殘次品的識(shí)別率很低,就無(wú)法真正實(shí)現(xiàn)檢測(cè)殘次品的目的。因此,如何改善分類器在不平衡分類問(wèn)題上的性能,在不危害多類分類精度的情況下提高少類樣本的識(shí)別率是亟待解決的問(wèn)題。
不平衡數(shù)據(jù)集的分類問(wèn)題研究可分為兩個(gè)方面,一個(gè)是從算法本身入手,通過(guò)改進(jìn)已有的算法,使分類偏向少類,典型的如代價(jià)敏感支持向量機(jī),通過(guò)給少類樣本較高的權(quán)重以提高少類的分類精度。二是在數(shù)據(jù)層面通過(guò)采樣技術(shù)對(duì)不平衡數(shù)據(jù)集進(jìn)行預(yù)處理,使訓(xùn)練集中少類和多類的樣本數(shù)基本平衡。
采樣技術(shù)可分為上采樣和下采樣兩種,上采樣技術(shù)通過(guò)簡(jiǎn)單復(fù)制或采用啟發(fā)式的方法以增加少類樣本的數(shù)量,典型的有隨機(jī)上采樣和SMOTE(Synthetic Minority Over-sampling Technique)算法。SMOTE算法通過(guò)在給定少類樣本點(diǎn)和其K個(gè)近鄰之間隨機(jī)插值構(gòu)造新的樣本點(diǎn),在一定程度上改善不平衡數(shù)據(jù)分類的性能。但無(wú)論是隨機(jī)上采樣還是SMOTE算法,均沒(méi)有遵循數(shù)據(jù)本身的分布規(guī)律,當(dāng)生成的樣本與原始數(shù)據(jù)的分布不一致時(shí),將不可避免引入噪聲,不僅容易過(guò)擬合還增加了算法復(fù)雜度,不能適應(yīng)目前大數(shù)據(jù)的發(fā)展趨勢(shì)。
下采樣通過(guò)刪除某些多類樣本點(diǎn)以減少多類樣本的數(shù)目,典型的有隨機(jī)下采樣和OSS(One Side Selection)算法。OSS算法將多類樣本分為噪聲樣本,邊界樣本,冗余樣本和安全樣本,根據(jù)Tomek Links技術(shù)去掉噪聲點(diǎn)和邊界點(diǎn)以減少少類樣本數(shù)目。因?yàn)闇p少了樣本點(diǎn),下采樣技術(shù)可以降低算法的復(fù)雜度,減少訓(xùn)練時(shí)間。但是,下采樣技術(shù)在將多類樣本刪除的同時(shí)有可能會(huì)丟失具有代表性的多類樣本信息,而使分類面發(fā)生偏移。
發(fā)明內(nèi)容
本發(fā)明的主要目的是克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種基于聚類下采樣的不平衡數(shù)據(jù)分類方法,在保證多類分類精度的情況下提高少類樣本的識(shí)別率,以提高不平衡數(shù)據(jù)集的分類性能。
本發(fā)明的原理是:支持向量機(jī)是非常依賴支持向量的分類器,本發(fā)明根據(jù)支持向量機(jī)這一重要特性,提出了一種基于聚類下采樣的不平衡數(shù)據(jù)分類方法。首先通過(guò)快速搜索和發(fā)現(xiàn)密度峰值聚類算法將多類分成不同的簇;然后將多類的每一簇與少類樣本點(diǎn)構(gòu)建訓(xùn)練集,通過(guò)支持向量機(jī)訓(xùn)練獲得每一簇的支持向量,保留所有簇的所有支持向量,刪除非支持向量構(gòu)建新的多類樣本點(diǎn)以獲得相對(duì)平衡的數(shù)據(jù)集;最后將獲得的新的數(shù)據(jù)集用支持向量機(jī)進(jìn)行分類。
本發(fā)明采用以下技術(shù)方案:
一種基于聚類下采樣的不平衡數(shù)據(jù)分類方法,包括下述步驟:
(1)將不平衡數(shù)據(jù)集分為訓(xùn)練集和交叉驗(yàn)證集兩部分;
(2)從訓(xùn)練集中提取出多類樣本和少類樣本;
(3)對(duì)訓(xùn)練集的多類樣本利用快速搜索和發(fā)現(xiàn)密度峰值聚類算法進(jìn)行聚類,獲得聚類結(jié)果,將訓(xùn)練集中的多類樣本分為N簇;
(4)將訓(xùn)練集中多類樣本的每一簇樣本與訓(xùn)練集中的少類樣本構(gòu)成新的樣本集,并用支持向量機(jī)分類,獲得訓(xùn)練集中多類樣本的支持向量;
(5)抽取每一簇的支持向量和訓(xùn)練集中的少類樣本一起構(gòu)成新的訓(xùn)練集;
(6)將新的訓(xùn)練集通過(guò)支持向量機(jī)進(jìn)行訓(xùn)練,并通過(guò)交叉驗(yàn)證集進(jìn)行性能評(píng)估。
進(jìn)一步地,步驟(1)中,訓(xùn)練集合交叉集的比例可以根據(jù)需要進(jìn)行分配,一般可以取十折交叉驗(yàn)證,即將數(shù)據(jù)集分成十分,將其中9份作為訓(xùn)練集,1份作為測(cè)試集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于五邑大學(xué),未經(jīng)五邑大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710784810.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種防障礙式背光組裝機(jī)
- 下一篇:一種鉚壓工裝及鉚壓系統(tǒng)
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種聚類數(shù)據(jù)的方法和裝置
- 一種多源放電及干擾疊加情況下的局部放電信號(hào)聚類方法
- 數(shù)據(jù)處理方法及相關(guān)設(shè)備
- 向量聚類訓(xùn)練方法及裝置
- 一種客服對(duì)話語(yǔ)料聚類方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)
- 對(duì)數(shù)據(jù)進(jìn)行聚類的方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種聚類方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種城市中心識(shí)別方法、終端及存儲(chǔ)介質(zhì)
- 一種基于時(shí)空聚類信息推斷的語(yǔ)音識(shí)別技術(shù)
- 一種配電網(wǎng)運(yùn)行場(chǎng)景提取方法及裝置





