[發(fā)明專利]一種面向不平衡數(shù)據(jù)的小樣本數(shù)據(jù)擴(kuò)充方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202011384923.3 | 申請(qǐng)日: | 2020-12-01 |
| 公開(公告)號(hào): | CN112396124B | 公開(公告)日: | 2023-01-24 |
| 發(fā)明(設(shè)計(jì))人: | 柴森春;王昭洋;周泰民;崔靈果;李慧芳;姚分喜;張百海 | 申請(qǐng)(專利權(quán))人: | 北京理工大學(xué) |
| 主分類號(hào): | G06F18/214 | 分類號(hào): | G06F18/214;G06N20/20 |
| 代理公司: | 北京高沃律師事務(wù)所 11569 | 代理人: | 王愛濤 |
| 地址: | 100081 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 不平衡 數(shù)據(jù) 樣本 擴(kuò)充 方法 系統(tǒng) | ||
本發(fā)明涉及一種面向不平衡數(shù)據(jù)的小樣本數(shù)據(jù)擴(kuò)充方法及系統(tǒng),從MES互聯(lián)互通系統(tǒng)的上層平臺(tái)提取MES系統(tǒng)不平衡數(shù)據(jù),根據(jù)正樣本數(shù)據(jù)集中正樣本的數(shù)量與負(fù)樣本數(shù)據(jù)集中負(fù)樣本的數(shù)量的差值劃分MES系統(tǒng)不平衡數(shù)據(jù)的等級(jí),對(duì)于MES系統(tǒng)不平衡數(shù)據(jù)的不同等級(jí),采用不同的擴(kuò)充方法,當(dāng)正樣本數(shù)據(jù)集為第一等級(jí)不平衡數(shù)據(jù)集時(shí),采用Borderline?SMOTE算法對(duì)處于邊界處的正樣本點(diǎn)進(jìn)行擴(kuò)充,可以有效避免傳統(tǒng)過采樣造成的邊界模糊問題,在一定程度上提高數(shù)據(jù)質(zhì)量;當(dāng)正樣本數(shù)據(jù)集為第二等級(jí)不平衡數(shù)據(jù)集時(shí),采用基于密度的SMOTE算法進(jìn)行擴(kuò)充,與傳統(tǒng)SMOTE算法相比,減少了邊界模糊問題的發(fā)生,保證了小樣本數(shù)據(jù)擴(kuò)充的質(zhì)量。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)擴(kuò)充技術(shù)領(lǐng)域,特別是涉及一種面向不平衡數(shù)據(jù)的小樣本數(shù)據(jù)擴(kuò)充方法及系統(tǒng)。
背景技術(shù)
隨著人工智能的不斷發(fā)展,目前機(jī)器學(xué)習(xí)技術(shù)已經(jīng)深入運(yùn)用到了工業(yè)生產(chǎn)當(dāng)中。然而在運(yùn)用機(jī)器學(xué)習(xí)技術(shù)處理生產(chǎn)流程中的分類、回歸等問題時(shí)往往面臨著數(shù)據(jù)不平衡的問題。例如工業(yè)領(lǐng)域的故障診斷問題中故障數(shù)據(jù)數(shù)量遠(yuǎn)小于正常數(shù)據(jù)的數(shù)量、醫(yī)療領(lǐng)域診斷中病例數(shù)量少、金融領(lǐng)域信用卡交易詐騙預(yù)測(cè)、網(wǎng)絡(luò)安全領(lǐng)域中預(yù)測(cè)網(wǎng)絡(luò)入侵等都由于數(shù)據(jù)不平衡帶來了一定的難度。在數(shù)據(jù)不平衡問題中,由于多數(shù)類(負(fù)樣本)樣本數(shù)量遠(yuǎn)大于少數(shù)類(正樣本)樣本的數(shù)量,支持向量機(jī)、決策樹、貝葉斯網(wǎng)絡(luò),深度信念網(wǎng)絡(luò)等大部分較為基礎(chǔ)的模型容易在最大化全體分類準(zhǔn)確率的目標(biāo)實(shí)現(xiàn)過程中,偏向多數(shù)類樣本的參數(shù)更新而忽略少數(shù)類樣本的正確分類,使得少數(shù)類樣本難以被分類器學(xué)習(xí),而往往我們更關(guān)注少數(shù)類樣本的分類準(zhǔn)確率,尤其對(duì)于MES互聯(lián)互通系統(tǒng)這種容易出現(xiàn)嚴(yán)重不平衡數(shù)據(jù)的運(yùn)用場(chǎng)景,小樣本帶來的問題將更加嚴(yán)重,同時(shí)也阻礙了機(jī)器學(xué)習(xí)模型在MES系統(tǒng)中的運(yùn)用。因此需要一定的技術(shù)對(duì)MES系統(tǒng)中的少數(shù)類樣本進(jìn)行合理的數(shù)據(jù)擴(kuò)充。
目前,欠采樣、過采樣方法和集成學(xué)習(xí)方法分別在數(shù)據(jù)采樣層面和算法優(yōu)化層面被廣泛用于緩解不平衡數(shù)據(jù)集的訓(xùn)練問題。普通的過采樣技術(shù)(Synthetic MinorityOver-samplingTechnique,SMOTE)通過增廣少數(shù)類故障來平衡各故障類別的樣本數(shù)目,但簡(jiǎn)單的復(fù)制樣本對(duì)于MES系統(tǒng)中嚴(yán)重不平衡的數(shù)據(jù)很容易導(dǎo)致過擬合,且新生成樣本又容易導(dǎo)致故障樣本類間重疊的缺陷,因此過采樣算法在一定程度上不能保證增廣數(shù)據(jù)的質(zhì)量。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種面向不平衡數(shù)據(jù)的小樣本數(shù)據(jù)擴(kuò)充方法及系統(tǒng),以克服現(xiàn)有技術(shù)對(duì)小樣本數(shù)據(jù)擴(kuò)充的過擬合和新生成樣本間數(shù)據(jù)重疊的缺陷,保證小樣本數(shù)據(jù)擴(kuò)充的質(zhì)量。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:
一種面向不平衡數(shù)據(jù)的小樣本數(shù)據(jù)擴(kuò)充方法,所述方法包括:
從MES互聯(lián)互通系統(tǒng)的上層平臺(tái)提取MES系統(tǒng)不平衡數(shù)據(jù),并將所有MES系統(tǒng)不平衡數(shù)據(jù)構(gòu)成樣本數(shù)據(jù)集;所述樣本數(shù)據(jù)集包括正樣本數(shù)據(jù)集和負(fù)樣本數(shù)據(jù)集;
獲取所述正樣本數(shù)據(jù)集中正樣本的數(shù)量與所述負(fù)樣本數(shù)據(jù)集中負(fù)樣本的數(shù)量的差值,判斷所述差值是否小于差值閾值,獲得第一判斷結(jié)果;
若所述第一判斷結(jié)果表示是,則判定所述正樣本數(shù)據(jù)集為第一等級(jí)不平衡數(shù)據(jù)集;
采用Borderline-SMOTE算法對(duì)所述第一等級(jí)不平衡數(shù)據(jù)集進(jìn)行擴(kuò)充,獲得擴(kuò)充后的正樣本數(shù)據(jù)集;
若所述第一判斷結(jié)果表示否,則判定所述正樣本數(shù)據(jù)集為第二等級(jí)不平衡數(shù)據(jù)集;
采用基于密度的SMOTE算法對(duì)所述第二等級(jí)不平衡數(shù)據(jù)集進(jìn)行擴(kuò)充,獲得擴(kuò)充后的正樣本數(shù)據(jù)集;
所述擴(kuò)充后的正樣本數(shù)據(jù)集和所述負(fù)樣本數(shù)據(jù)集構(gòu)成MES系統(tǒng)平衡數(shù)據(jù)集。
可選的,所述采用Borderline-SMOTE算法對(duì)所述第一等級(jí)不平衡數(shù)據(jù)集進(jìn)行擴(kuò)充,獲得擴(kuò)充后的正樣本數(shù)據(jù)集,具體包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學(xué),未經(jīng)北京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011384923.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測(cè)系統(tǒng)
- 樣本分析裝置、樣本檢測(cè)設(shè)備及樣本檢測(cè)方法
- 樣本檢測(cè)方法、樣本檢測(cè)裝置及樣本檢測(cè)系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)





