[發(fā)明專利]分類器生成方法、裝置、存儲介質(zhì)及電子設(shè)備在審
| 申請?zhí)枺?/td> | 202011482638.5 | 申請日: | 2020-12-15 |
| 公開(公告)號: | CN112508116A | 公開(公告)日: | 2021-03-16 |
| 發(fā)明(設(shè)計)人: | 劉芷寧;常毅 | 申請(專利權(quán))人: | 吉林大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京恒博知識產(chǎn)權(quán)代理有限公司 11528 | 代理人: | 張曉芳 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分類 生成 方法 裝置 存儲 介質(zhì) 電子設(shè)備 | ||
本申請公開了一種分類器生成方法、裝置、存儲介質(zhì)及電子設(shè)備,屬于計算機技術(shù)領(lǐng)域。所述分類器生成方法包括:獲取第n個集成分類器和第n個數(shù)據(jù)子集,通過所述第n個集成分類器對所述第n個數(shù)據(jù)子集進行處理得到第n個元狀態(tài)參數(shù),通過元采樣器對所述第n個元狀態(tài)參數(shù)進行處理得到第n個采樣權(quán)重,基于所述第n個采樣權(quán)重生成第n+1個數(shù)據(jù)子集,將訓(xùn)練后的第n+1個基分類器與所述第n個集成分類器進行組合得到第n+1個集成分類器,在n+1大于閾值時,將所述第n+1個集成分類器作為目標集成分類器。故本申請通過構(gòu)造元采樣器,能自動從數(shù)據(jù)中學(xué)習(xí)對給定任務(wù)提供最優(yōu)的采樣策略,有效提升集成學(xué)習(xí)模型的性能,解決類別不平衡數(shù)據(jù)上的機器學(xué)習(xí)效果差的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,具體涉及一種分類器生成方法、裝置、存儲介質(zhì)及電子設(shè)備。
背景技術(shù)
傳統(tǒng)的機器學(xué)習(xí)方法通常假設(shè)不同的類別的訓(xùn)練數(shù)據(jù)量是相同的,并不考慮不同類別樣本數(shù)量以及標識質(zhì)量的差異。然而在機器學(xué)習(xí)系統(tǒng)的實際應(yīng)用中,所收集到的訓(xùn)練數(shù)據(jù)經(jīng)常是類別不平衡的,即在一個數(shù)據(jù)集中,不同類別樣本的數(shù)量差異很大,導(dǎo)致表示的質(zhì)量有很大差別。例如金融欺詐檢測(正常賬單/欺詐賬單),網(wǎng)絡(luò)入侵檢測(正常用戶連接/惡意連接),醫(yī)療輔助診斷(正常人/患者)等任務(wù)中,正負類的樣本數(shù)量都有很大的差別,其數(shù)量差異從幾十倍到上千倍不等。由于忽視了類別分布的先驗信息,傳統(tǒng)機器學(xué)習(xí)模型在不平衡的數(shù)據(jù)上難以學(xué)習(xí)到少數(shù)類的模式,甚至?xí)⑺形匆姅?shù)據(jù)全部預(yù)測為多數(shù)類。現(xiàn)有的不平衡學(xué)習(xí)方法,例如:通過添加或刪除數(shù)據(jù)集中的樣本來平衡數(shù)據(jù)分布或去除噪聲的重采樣方法,通過給不同的樣本分配不同的權(quán)重或重要性來修正偏差的重加權(quán)方法,以及將重采樣或重加權(quán)方法嵌入到集成學(xué)習(xí)框架中的集成學(xué)習(xí)類方法。這些方法通常基于一些直覺上的觀察和假設(shè),而在實際中這些假設(shè)一般是不成立的,導(dǎo)致在實際應(yīng)用中的性能、計算效率、適用性都不盡如人意。因此如何讓計算機自動從數(shù)據(jù)中學(xué)習(xí)超越手工設(shè)計的策略,從而提升機器學(xué)習(xí)系統(tǒng)在類別不平衡數(shù)據(jù)上的穩(wěn)定表現(xiàn)是目前亟待解決的問題。
發(fā)明內(nèi)容
本申請實施例提供了一種分類器生成方法、裝置、存儲介質(zhì)及電子設(shè)備,通過構(gòu)造參數(shù)化、自適應(yīng)和可學(xué)習(xí)的元采樣器,能有效提升集成學(xué)習(xí)模型的性能,解決類別不平衡數(shù)據(jù)上的機器學(xué)習(xí)效果差的問題。所述技術(shù)方案如下:
第一方面,本申請實施例提供了一種分類器生成方法,包括:
獲取第n個集成分類器和第n個數(shù)據(jù)子集;其中,n為大于0的整數(shù);
通過所述第n個集成分類器對所述第n個數(shù)據(jù)子集進行處理得到第n個元狀態(tài)參數(shù);其中,所述第n個數(shù)據(jù)子集包括第n個訓(xùn)練集和第n個驗證集;
通過元采樣器對所述第n個元狀態(tài)參數(shù)進行處理得到第n個采樣權(quán)重;
基于所述第n個采樣權(quán)重生成第n+1個數(shù)據(jù)子集;
將訓(xùn)練后的第n+1個基分類器與所述第n個集成分類器進行組合得到第n+1個集成分類器;
在n+1大于閾值時,將所述第n+1個集成分類器作為目標集成分類器;
在n+1小于或等于閾值時,繼續(xù)進行迭代。
第二方面,本申請實施例提供了一種分類器生成裝置,所述裝置包括:
獲取模塊,用于獲取第n個集成分類器和第n個數(shù)據(jù)子集;其中,n為大于0的整數(shù);
第一處理模塊,用于通過所述第n個集成分類器對所述第n個數(shù)據(jù)子集進行處理得到第n個元狀態(tài)參數(shù);其中,所述第n個數(shù)據(jù)子集包括第n個訓(xùn)練集和第n個驗證集;
第二處理模塊,用于通過元采樣器對所述第n個元狀態(tài)參數(shù)進行處理得到第n個采樣權(quán)重;
生成模塊,用于基于所述第n個采樣權(quán)重生成第n+1個數(shù)據(jù)子集;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學(xué),未經(jīng)吉林大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011482638.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種機械加工用固定定位裝置
- 下一篇:移位寄存器、顯示面板及顯示裝置
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





