[發明專利]一種面向不平衡數據的小樣本數據擴充方法及系統有效
| 申請號: | 202011384923.3 | 申請日: | 2020-12-01 |
| 公開(公告)號: | CN112396124B | 公開(公告)日: | 2023-01-24 |
| 發明(設計)人: | 柴森春;王昭洋;周泰民;崔靈果;李慧芳;姚分喜;張百海 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06N20/20 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 王愛濤 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 不平衡 數據 樣本 擴充 方法 系統 | ||
1.一種面向不平衡數據的小樣本數據擴充方法,其特征在于,所述方法包括:
從MES互聯互通系統的上層平臺提取MES系統不平衡數據,并將所有MES系統不平衡數據構成樣本數據集;所述樣本數據集包括正樣本數據集和負樣本數據集;
獲取所述正樣本數據集中正樣本的數量與所述負樣本數據集中負樣本的數量的差值,判斷所述差值是否小于差值閾值,獲得第一判斷結果;
若所述第一判斷結果表示是,則判定所述正樣本數據集為第一等級不平衡數據集;
采用Borderline-SMOTE算法對所述第一等級不平衡數據集進行擴充,獲得擴充后的正樣本數據集;
若所述第一判斷結果表示否,則判定所述正樣本數據集為第二等級不平衡數據集;
采用基于密度的SMOTE算法對所述第二等級不平衡數據集進行擴充,獲得擴充后的正樣本數據集;
所述擴充后的正樣本數據集和所述負樣本數據集構成MES系統平衡數據集;
對MES系統平衡數據集進行存儲,然后利用可視化工具對數據進行可視化以供對MES數據進行評價;
其中,所述采用Borderline-SMOTE算法對所述第一等級不平衡數據集進行擴充,獲得擴充后的正樣本數據集,具體包括:
獲取所述第一等級不平衡數據集中每個正樣本在所述樣本數據集中與每個正樣本最近的K個近鄰樣本;
分別統計每個正樣本最近的K個近鄰樣本中近鄰正樣本的數量和近鄰負樣本的數量;
將近鄰正樣本的數量小于近鄰負樣本的數量且近鄰正樣本的數量大于0對應的正樣本確定為正負樣本邊界的邊界正樣本;
根據所述邊界正樣本和邊界正樣本最近的K個近鄰樣本中近鄰正樣本,利用公式獲得所述第一等級不平衡數據集中每個邊界正樣本的新正樣本;
所述第一等級不平衡數據集中所有邊界正樣本的新正樣本構成第一新正樣本集合;
將所述第一新正樣本集合與所述第一等級不平衡數據集進行合并,獲得擴充后的第一等級不平衡數據集;
判斷所述擴充后的第一等級不平衡數據集中正樣本數量是否大于所述負樣本數據集中負樣本的數量,獲得第二判斷結果;
若所述第二判斷結果表示是,則隨機刪除所述擴充后的第一等級不平衡數據集中的新正樣本,使刪除后的擴充后的第一等級不平衡數據集中正樣本數量等于所述負樣本數據集中負樣本的數量,輸出刪除后的擴充后的第一等級不平衡數據集;
若所述第二判斷結果表示否,則判斷所述擴充后的第一等級不平衡數據集中正樣本數量是否等于所述負樣本數據集中負樣本的數量,獲得第三判斷結果;
若所述第三判斷結果表示是,則輸出所述擴充后的第一等級不平衡數據集;
若所述第三判斷結果表示否,則將所述第一等級不平衡數據集更新為擴充后的第一等級不平衡數據集,返回步驟“獲取所述第一等級不平衡數據集中每個正樣本在所述樣本數據集中與每個正樣本最近的K個近鄰樣本”;
其中,pi為第i個邊界正樣本,為邊界正樣本pi最近的K個近鄰樣本中第d個近鄰正樣本,K為邊界正樣本pi最近的近鄰樣本的數量,mi為邊界正樣本pi最近的K個近鄰樣本中近鄰正樣本的數量,pinew,d為正樣本pi的新正樣本,rand()為隨機函數,rand(0,1)為生成一個(0,1)內的隨機數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011384923.3/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





