[發(fā)明專利]基于代價局部泛化誤差的不平衡問題的分類方法有效
| 申請?zhí)枺?/td> | 201910267769.2 | 申請日: | 2019-04-03 |
| 公開(公告)號: | CN110110754B | 公開(公告)日: | 2022-03-29 |
| 發(fā)明(設(shè)計)人: | 吳永賢;劉政錫;張建軍 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/774;G06K9/62;G06N3/04;G06N3/063 |
| 代理公司: | 廣州粵高專利商標(biāo)代理有限公司 44102 | 代理人: | 何淑珍;江裕強(qiáng) |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 代價 局部 泛化 誤差 不平衡 問題 分類 方法 | ||
本發(fā)明公開了基于代價局部泛化誤差的不平衡問題的分類方法,包括以下步驟:對數(shù)據(jù)的每維特征進(jìn)行歸一化處理;根據(jù)數(shù)據(jù)集的統(tǒng)計學(xué)規(guī)律,計算不同類別樣本的錯分代價;構(gòu)建代價敏感多層感知器神經(jīng)網(wǎng)絡(luò)模型;針對每一個樣本,計算其局部泛化誤差對應(yīng)的隨機(jī)敏感度(ST?SM);結(jié)合代價敏感以及局部泛化誤差的隨機(jī)敏感度完成模型訓(xùn)練。本發(fā)明在規(guī)避數(shù)據(jù)層面的方法對數(shù)據(jù)集分布過多影響的劣勢的情況下,有效地結(jié)合局部泛化誤差對泛化能力的提升上的優(yōu)勢和基于算法層面的方法更快的訓(xùn)練、測試時間的優(yōu)勢,提升了不平衡數(shù)據(jù)集分類的穩(wěn)定性和各個類別的分類結(jié)果的準(zhǔn)確度,得出了更合理的分類決策邊界。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)集不平衡分類的領(lǐng)域,具體涉及基于代價局部泛化誤差的不平衡問題的分類方法。
背景技術(shù)
隨著計算機(jī)科學(xué)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)在眾多的領(lǐng)域中都表現(xiàn)出了極為重要的作用。近年來,而不平衡的數(shù)據(jù)集的情況在大多數(shù)領(lǐng)域中都不容忽視,也成為了機(jī)器學(xué)習(xí)發(fā)展的一項阻礙。如體檢中,健康的人群的數(shù)目一般是大于實際是病人的人數(shù)。如果把健康的人錯分類成了生病的人,只需要人工再檢測一次就能判定;但是,如果忽視了病人的疾病,會導(dǎo)致病人不能收到及時的治療。普通的機(jī)器學(xué)習(xí)都是認(rèn)為數(shù)據(jù)集分布是平衡的,并且錯分的損失也是相同的。因此,不平衡數(shù)據(jù)集問題的最基本的根源在樣本分布的不平衡程度會影響普通的機(jī)器學(xué)習(xí)結(jié)果,導(dǎo)致距離真實的結(jié)論越來越遠(yuǎn)。
現(xiàn)有的解決不平衡數(shù)據(jù)集的方法有,基于數(shù)據(jù)層面的方法,基于算法層面的方法和混合方法。但是基于數(shù)據(jù)層面的方法,比如重采樣,會生成大量的少數(shù)類的未知樣本或者是刪除大量多數(shù)類的已知樣本,從而可能影響數(shù)據(jù)集全局的分布規(guī)律,除此之外,采樣的隨機(jī)性與帶來的全局影響給分類的結(jié)果帶來了不確定性;而混合方法則多是考慮到單個分類器的局限性,結(jié)合集成學(xué)習(xí)的思想,運用集成學(xué)習(xí)的優(yōu)勢來得到比單個分類器更好地分類結(jié)果,單個分類器甚至可以使用基本的機(jī)器學(xué)習(xí)模型就可以做到,但是缺點在于,集成學(xué)習(xí)導(dǎo)致訓(xùn)練、測試的速度降低。相反,基于算法層面的方法,比如代價敏感學(xué)習(xí),有較快的速度,但是在分類決策邊界附近的泛化能力很差,特別是對于少數(shù)類樣本的數(shù)據(jù)量不足的情況,分類器難以學(xué)習(xí)到少數(shù)類樣本的分布規(guī)律,同樣也有可能不能訓(xùn)練得到穩(wěn)定的分類結(jié)果。
更進(jìn)一步地,訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)的最終目的是獲得一個泛化能力足夠優(yōu)秀的模型,為了實現(xiàn)這樣的想法,有學(xué)者提出了局部泛化誤差模型可以適用于徑向基神經(jīng)網(wǎng)絡(luò)和多層感知器神經(jīng)網(wǎng)絡(luò)。這是一種帶有基于數(shù)據(jù)層面的方法思想的算法,但是與基于數(shù)據(jù)層面的方法不同的是,局部泛化誤差僅僅依靠在當(dāng)前樣本點的周圍很小的鄰域內(nèi)生成未知樣本,來預(yù)測或是模擬當(dāng)前樣本點的輸出的波動,不會影響全局的數(shù)據(jù)分布的規(guī)律。因此,局部泛化誤差模型不會過分地影響數(shù)據(jù)的分布規(guī)律。另外,局部泛化誤差模型只在當(dāng)前樣本很小的鄰域內(nèi)生成隨機(jī)樣本,因為其涉及的空間足夠小,所以帶來的隨機(jī)的不確定性相對于重采樣的方法來說更小。但是,局部泛化誤差目前僅僅用于了普通的神經(jīng)網(wǎng)絡(luò)的任務(wù),即數(shù)據(jù)集是平衡的,并且不同類別的錯分的代價是相同的例子中,對于其擴(kuò)展到不平衡數(shù)據(jù)集的例子還很少。
現(xiàn)階段,對于多層感知器神經(jīng)網(wǎng)絡(luò),使用的權(quán)值更新的方法,或者說是優(yōu)化迭代的方法多是反向傳播算法,反向傳播算法在很多神經(jīng)網(wǎng)絡(luò)的訓(xùn)練情況下有了不錯的表現(xiàn)。但是反向傳播算法有一個缺點,數(shù)據(jù)的輸入的先后順序?qū)δP陀?xùn)練的結(jié)果有很大的影響,先輸入的數(shù)據(jù)相比于后輸入的數(shù)據(jù),對模型的影響一般來說更小。因此,在不平衡數(shù)據(jù)集的問題中,少數(shù)類樣本和多數(shù)類樣本輸入的先后順序?qū)⒅苯佑绊懩P陀?xùn)練的結(jié)果。
發(fā)明內(nèi)容
鑒于以上內(nèi)容,有必要提供一種能夠提高不平衡數(shù)據(jù)集分類的結(jié)果的正確率,降低整體的錯分代價,具有較好的魯棒性,有效改進(jìn)現(xiàn)有的分類方法對于不平衡數(shù)據(jù)集的缺點的分類方法。同時考慮到反向傳播算法在不平衡數(shù)據(jù)集問題中應(yīng)用的局限性,需要一種新的方法來完成優(yōu)化迭代的任務(wù)。
本發(fā)明的目的至少通過如下技術(shù)方案之一實現(xiàn)。
一種基于代價局部泛化誤差的不平衡問題的分類方法,包括以下步驟:
步驟1:對數(shù)據(jù)的每維特征進(jìn)行歸一化處理;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910267769.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





