[發明專利]一種數據量分布的平衡方法及數據處理方法有效
| 申請號: | 201910241989.8 | 申請日: | 2019-03-27 |
| 公開(公告)號: | CN111652384B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 熊杰成 | 申請(專利權)人: | 上海錸鍶信息技術有限公司 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F18/24;G06N20/00 |
| 代理公司: | 杭州鈐韜知識產權代理事務所(普通合伙) 33329 | 代理人: | 羅國新;唐靈 |
| 地址: | 201615 上海市松江區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據量 分布 平衡 方法 數據處理 | ||
1.一種數據量分布的平衡方法,其特征在于,包括步驟:
基于不平衡度量的數據量分布平衡,包括:提供一原始數據量分布的第一不平衡度,建立平衡度處理模型,所述平衡度處理模型給出針對原始數據量分布的平衡策略和衡量該平衡策略的第二不平衡度,所述第二平衡度至少小于第一平衡度;
所述平衡度處理模型表達為
其中,C表示類別數量,c表示第c個類別,xc和xc′分別表示原始數據量分布X和新數據量分布X′中類別c下的樣本數據量,Nmax′和Nmin′分別表示為新數據量分布X′中的最大類別的數據量和最小類別的數據量;
基于不平衡度量的數據量分布的自動化平衡,包括:給出所述平衡度處理模型中滿足所述第二不平衡度的最大類別數據量和最小類別數據量,基于所述平衡策略和所述最大類別數據量和最小類別數據量,對原始數據量分布進行平衡處理,得到平衡后的新數據量分布;
還包括:建立一優化模型,所述優化模型給出在滿足所述第二不平衡度下的最優所述最大類別數據量和最小類別數據量,所述優化模型為
其中μ為原始數據量分布的均值,μ′為新數據量分布的均值,N'max和N'min分別表示為新數據量分布X′中的最大類別的數據量和最小類別的數據量,所述第二模型的自然語言描述可以表達為,通過優化找到一對滿足指定的N'max/N'min=IR’條件的N'max和N'min,使得原始數據量分布的均值μ與新數據量分布的均值μ′之間的差值最小。
2.如權利要求1所述的數據量分布的平衡方法,其特征在于,還包括:對新數據量分布下的標準差進行評估,判斷是否小于原始數據量分布下的標準差,以判斷基于所述平衡處理模型的數據處理策略是否成功。
3.一種數據量分布的平衡方法,該方法對一原始數據量分布平衡后形成一新數據量分布,所述原始數據量分布具有一第一不平衡度,其特征在于,所述方法包括:
指定一第二不平衡度,所述第二不平衡度至少小于所述第一不平衡度;
根據所述第二不平衡度,生成所述新數據量分布中的最大類別數據量和最小類別數據量,所述最大類別數據量和最小類別數據量使得第一數據量分布的均值與所述新數據量分布的均值之間的差值最小;
根據所述最大類別數據量和最小類別數據量,通過一平衡處理模型生成所述新數據量分布;
所述新數據量分布中的最大類別數據量和最小類別數據量,與所述第二不平衡度之間的關系為:
N′max/N'min=IR’
其中,N'max表示最大類別數據量,N'min表示最小類別數據量,IR’表示第二不平衡度。
4.如權利要求3所述的數據量分布的平衡方法,其特征在于,所述平衡處理模型為:
其中,C表示類別數量,c表示第c個類別,xc和xc′分別表示原始數據量分布X和新數據量分布X′中類別c下的樣本數據量,Nmax′和Nmin′分別表示為新數據量分布X′中的最大類別的數據量和最小類別的數據量。
5.如權利要求4所述的數據量分布的平衡方法,其特征在于,還包括:對新數據量分布下的標準差進行評估,判斷是否小于原始數據量分布下的標準差,以判斷基于所述平衡處理模型的數據處理策略是否成功。
6.一種數據處理方法,其特征在于,包括:
提供一具有原始數據量分布的原始數據集;
對所述原始數據集按照權利要求1至5任一項所述的數據量分布的平衡方法進行平衡,得到新數據量分布;
基于所述新數據量分布,對所述原始數據集機型數據抽樣或數據增廣,得到新數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海錸鍶信息技術有限公司,未經上海錸鍶信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910241989.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種圖像分類數據標注質量評估方法
- 下一篇:車輛自動停放方法及其自動駕駛車輛





