[發(fā)明專利]一種基于自適應(yīng)平衡集成與動(dòng)態(tài)分層決策的多分類方法在審
| 申請(qǐng)?zhí)枺?/td> | 201811599644.1 | 申請(qǐng)日: | 2018-12-26 |
| 公開(公告)號(hào): | CN109359704A | 公開(公告)日: | 2019-02-19 |
| 發(fā)明(設(shè)計(jì))人: | 高欣;何楊;井瀟;刁新平;任昺;紀(jì)維佳 | 申請(qǐng)(專利權(quán))人: | 北京郵電大學(xué) |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 二分類 一對(duì)多 樣本 自適應(yīng)平衡 動(dòng)態(tài)分層 數(shù)據(jù)集 子模型 原始數(shù)據(jù)集 參數(shù)區(qū)間 測(cè)試樣本 分類模型 技術(shù)平衡 決策空間 類別判定 評(píng)分標(biāo)準(zhǔn) 輸出結(jié)果 數(shù)據(jù)集中 網(wǎng)格搜索 整體識(shí)別 正常區(qū)域 采樣數(shù) 過采樣 交叉區(qū) 空白區(qū) 平均法 欠采樣 上下限 分類 準(zhǔn)確率 子集 決策 分解 轉(zhuǎn)化 制定 | ||
本發(fā)明實(shí)施例提出了一種基于自適應(yīng)平衡集成與動(dòng)態(tài)分層決策的多分類方法,包括:根據(jù)一對(duì)多分解策略將原始數(shù)據(jù)集轉(zhuǎn)化為多個(gè)二類數(shù)據(jù)集,以每個(gè)二類數(shù)據(jù)集中多數(shù)類樣本與少數(shù)類樣本數(shù)目分別作為參數(shù)區(qū)間上下限,平均每類準(zhǔn)確率為評(píng)分標(biāo)準(zhǔn),通過網(wǎng)格搜索法獲得各子集采樣數(shù);據(jù)此綜合過采樣與欠采樣技術(shù)平衡二類數(shù)據(jù)集以建立多個(gè)二分類子模型,通過平均法集成子模型獲得二分類模型;根據(jù)所有二分類模型輸出結(jié)果獲取測(cè)試樣本在一對(duì)多框架下決策空間位置信息,據(jù)此分別制定針對(duì)空白區(qū)、交叉區(qū)、正常區(qū)域的類別判定策略以確定樣本最終類別。本發(fā)明實(shí)施例提供的技術(shù)方案,可提高一對(duì)多框架下分類模型對(duì)各類別的整體識(shí)別率。
【技術(shù)領(lǐng)域】
本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域多分類方法,尤其涉及一種基于自適應(yīng)平衡集成與動(dòng)態(tài)分層決策的多分類方法。
【背景技術(shù)】
在利用機(jī)器學(xué)習(xí)方法解決多分類問題時(shí),將原始多分類問題轉(zhuǎn)化為多個(gè)二分類問題是一種有效的手段。其中,一對(duì)多分解策略是一種主流的分解方法,但該框架下存在嚴(yán)重的正負(fù)樣本數(shù)目不平衡、預(yù)測(cè)結(jié)果過度依賴二分類器置信度等問題。根據(jù)合適的機(jī)器學(xué)習(xí)方法解決一對(duì)多框架下的類不平衡與結(jié)果聚合問題,以提高分類模型的準(zhǔn)確率,是當(dāng)今研究的熱點(diǎn)之一。解決目前對(duì)于不平衡數(shù)據(jù)的分類問題,常用技術(shù)主要分為數(shù)據(jù)級(jí)方法、算法級(jí)方法、代價(jià)敏感學(xué)習(xí)和集成學(xué)習(xí)技術(shù)。數(shù)據(jù)級(jí)方法通過對(duì)數(shù)據(jù)空間進(jìn)行抽樣來重新平衡類分布,具體為對(duì)多數(shù)類樣本欠采樣或者對(duì)少數(shù)類樣本過采樣。欠采樣中主要有隨機(jī)欠采樣與基于聚類的欠采樣。隨機(jī)欠采樣從多數(shù)類樣本中隨機(jī)挑選部分樣本與全部少數(shù)類樣本組成新的訓(xùn)練樣本,該方法雖然生成了平衡的數(shù)據(jù)集,但隨機(jī)性強(qiáng)、未慮整個(gè)樣本空間分布特點(diǎn),會(huì)造成多數(shù)類有用信息的丟失;基于聚類的欠采樣將多數(shù)類樣本聚成多個(gè)簇,其中簇個(gè)數(shù)等于少數(shù)類樣本個(gè)數(shù),然后從所有簇中挑選中心點(diǎn)或者離中心點(diǎn)最近的樣本作為訓(xùn)練樣本,一定程度上減少了隨機(jī)欠采樣的盲目性。但是當(dāng)少數(shù)類樣本數(shù)目很大時(shí),直接選取少數(shù)類樣本個(gè)數(shù)作為簇個(gè)數(shù)可能會(huì)影響聚類過程,不利于后續(xù)采樣。過抽樣中經(jīng)典的方法是SMOTE,該算法隨機(jī)選擇部分少數(shù)類樣本,從這些少數(shù)類樣本最近的幾個(gè)鄰居點(diǎn)中隨機(jī)挑選一個(gè)樣本,然后在這兩個(gè)樣本之間合成新的少數(shù)類樣本。過采樣具有的缺點(diǎn)是增加少數(shù)樣本,可能會(huì)造成過擬合。Borderline-SMOTE1只利用位于邊界內(nèi)的少數(shù)樣本合成新的樣本,Borderline-SMOTE2除了只考慮邊界點(diǎn),允許少數(shù)類鄰居點(diǎn)中存在部分多數(shù)類樣本。以上方法可以減少噪聲點(diǎn)的產(chǎn)生,而基于kmeans和SMOTE的啟發(fā)式過采樣不僅解決類間不平衡,還可以解決類內(nèi)不平衡。算法級(jí)方法通過直接修改現(xiàn)有方法或者提出新的方法來解決類不平衡分類問題,但需要滿足一定的假設(shè)條件。代價(jià)敏感學(xué)習(xí)為少數(shù)類樣本分配的錯(cuò)誤分類代價(jià)成本高于多數(shù)類樣本,優(yōu)化目標(biāo)是使分類器的分類結(jié)果對(duì)應(yīng)總代價(jià)成本最低,如何確定合適的代價(jià)成本是這類方法需要考慮的問題,同時(shí)也是難以解決的問題。集成學(xué)習(xí)技術(shù)將數(shù)據(jù)級(jí)方法與集成學(xué)習(xí)Bagging或者Boosting方法相結(jié)合,不僅通過數(shù)據(jù)預(yù)處理降低數(shù)據(jù)不平衡程度,而且通過組合多個(gè)分類器可提高分類性能。Bagging方法雖然簡單,但是如果與數(shù)據(jù)預(yù)處理合理組合將對(duì)處理類不平衡分類問題具有積極作用,有效地組合兩種方法可以提高對(duì)不平衡數(shù)據(jù)的分類效果。解決目前對(duì)于一對(duì)多框架下結(jié)果聚合的問題,主要有最大置信度值與動(dòng)態(tài)排序方法。最大置信度考慮全部二分類模型結(jié)果,將最大置信度值對(duì)應(yīng)的類別作為預(yù)測(cè)類別,但是該方法無法解決出現(xiàn)多個(gè)最大置信度值的情況。動(dòng)態(tài)排序方法在對(duì)測(cè)試樣本進(jìn)行分類前,事先根據(jù)樸素貝葉斯分類器得到所有二分類模型對(duì)該樣本的測(cè)試順序,而不用同時(shí)考慮全部二分類模型結(jié)果。但樸素貝葉斯分類器給出的輸出順序?qū)ψ罱K預(yù)測(cè)結(jié)果具有一定的影響,當(dāng)所有二分類器輸出結(jié)果中出現(xiàn)多個(gè)正類的概率大于閾值時(shí)影響更大。
【發(fā)明內(nèi)容】
有鑒于此,本發(fā)明實(shí)施例提出了一種基于自適應(yīng)平衡集成與動(dòng)態(tài)分層決策的多分類方法,以提高分類模型的準(zhǔn)確率。
本發(fā)明實(shí)施例提出的一種基于自適應(yīng)平衡集成與動(dòng)態(tài)分層決策的多分類方法,包括:
根據(jù)一對(duì)多分解策略將原始數(shù)據(jù)集轉(zhuǎn)化為多個(gè)二類數(shù)據(jù)集,以每個(gè)二類數(shù)據(jù)集中多數(shù)類樣本與少數(shù)類樣本數(shù)目分別作為參數(shù)區(qū)間上下限,平均每類準(zhǔn)確率為評(píng)分標(biāo)準(zhǔn),通過網(wǎng)格搜索法獲得各子集采樣數(shù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811599644.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種文本分類方法、裝置和設(shè)備
- 一種養(yǎng)殖箱
- 自然語言分類方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 圖像分類方法、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 基于高分遙感影像二分類語義分割圖融合成多分類語義圖的方法
- 基于二分類的深度學(xué)習(xí)手寫中文字符識(shí)別方法及系統(tǒng)
- 基于Two-Head異常檢測(cè)模型的惡意代碼樣本篩選器及方法
- 多分類樣本數(shù)據(jù)的處理方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 多分類模型的訓(xùn)練方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于二分類模型的多分類方法、裝置、電子設(shè)備及介質(zhì)
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測(cè)系統(tǒng)
- 樣本分析裝置、樣本檢測(cè)設(shè)備及樣本檢測(cè)方法
- 樣本檢測(cè)方法、樣本檢測(cè)裝置及樣本檢測(cè)系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 自適應(yīng)平衡-非平衡雙模視頻接收芯片
- 六輪自適應(yīng)平衡電動(dòng)輪椅
- 一種單自由度自適應(yīng)平衡裝配機(jī)構(gòu)
- 一種自平衡自適應(yīng)石材鋸切裝置
- 一種自平衡自適應(yīng)石材鋸切裝置
- 平衡能力自適應(yīng)輔助訓(xùn)練系統(tǒng)、方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于魯棒自適應(yīng)控制器的平衡車控制方法
- 分布式功率平衡調(diào)節(jié)裝置頻率自適應(yīng)控制方法
- 一種用于低壓配網(wǎng)的三相電流自適應(yīng)平衡裝置
- 一種自適應(yīng)調(diào)整雨刮器





