[發明專利]針對不平衡樣本數據的數據處理方法及裝置在審
| 申請號: | 202110332637.0 | 申請日: | 2021-03-29 |
| 公開(公告)號: | CN112966778A | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 顧凌云;謝旻旗;段灣;孟軒;王震宇 | 申請(專利權)人: | 上海冰鑒信息科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 成都頂峰專利事務所(普通合伙) 51224 | 代理人: | 鄧江紅 |
| 地址: | 200000 上海市浦東新區中國(*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 針對 不平衡 樣本 數據 數據處理 方法 裝置 | ||
1.一種針對不平衡樣本數據的數據處理方法,其特征在于,應用于電子設備,所述方法包括以下步驟:
獲取建模樣本集;其中,所述建模樣本集中包括多個原始樣本,每個原始樣本攜帶一個樣本標簽,所述樣本標簽為第一樣本標簽或第二樣本標簽;
對所述建模樣本進行切分,得到待處理樣本集和跨時間驗證樣本集;確定所述待處理樣本集中攜帶第一樣本標簽的第一目標樣本,根據所述第一目標樣本構造第二目標樣本,并將所述第一目標樣本和所述第二目標樣本進行整合得到采樣樣本集;
對所述采樣樣本集進行切分,得到訓練樣本集和測試樣本集;通過所述訓練樣本集進行建模得到第一預測模型,基于所述測試樣本集確定所述第一預測模型的第一模型性能分布;
通過所述采樣樣本集進行建模得到第二預測模型,基于所述采樣樣本集確定第二預測模型的第二模型性能分布;
根據所述第一模型性能分布、所述第二模型性能分布以及所述跨時間驗證樣本集確定所述采樣樣本集是否滿足設定條件。
2.根據權利要求1所述的方法,其特征在于,根據所述第一模型性能分布、所述第二模型性能分布以及所述跨時間驗證樣本集確定所述采樣樣本集是否滿足設定條件,包括:
判斷所述第一模型性能分布和所述第二模型性能分布是否滿足預設模型性能指標;
在所述第一模型性能分布和所述第二模型性能分布滿足所述預設模型性能指標時,基于所述跨時間驗證樣本集確定所述第一預測模型的第三模型性能分布以及所述第二預測模型的第四模型性能分布;
判斷所述第三模型性能分布和所述第四模型性能分布是否滿足預設模型性能指標;
在所述第三模型性能分布和所述第四模型性能分布滿足所述預設模型性能指標時,判定所述采樣樣本集滿足建模條件。
3.根據權利要求1所述的方法,其特征在于,根據所述第一目標樣本構造第二目標樣本,包括:
計算每個所述第一目標樣本的K個近鄰;其中,K為正整數;
從所述K個近鄰中挑選出N個近鄰樣本;其中,N為正整數;
對所述N個近鄰樣本進行隨機線性插值,得到多個第二目標樣本。
4.根據權利要求1所述的方法,其特征在于,通過所述采樣樣本集進行建模得到第二預測模型,基于所述采樣樣本集確定第二預測模型的第二模型性能分布,包括:
通過對所述采樣樣本集進行分層采樣,得到設定數量個互斥子集;
重復執行以下步驟直至得到設定數量個第二模型性能分布:將所述設定數量個互斥子集中的其中一個互斥子集作為測試子集,將所述設定數量個互斥子集中除所述測試子集之外的剩余互斥子集求并集以作為訓練子集;通過所述訓練子集進行建模得到第二預測模型,基于所述測試樣本子集確定所述第二預測模型的第二模型性能分布。
5.根據權利要求1所述的方法,其特征在于,對所述建模樣本進行切分,得到待處理樣本集和跨時間驗證樣本集,包括:
按照第一設定比例對所述建模樣本進行切分,得到待處理樣本集和跨時間驗證樣本集。
6.根據權利要求1所述的方法,其特征在于,對所述采樣樣本集進行切分,得到訓練樣本集和測試樣本集,包括:
按照第二設定比例對所述采樣樣本集進行切分,得到訓練樣本集和測試樣本集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海冰鑒信息科技有限公司,未經上海冰鑒信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110332637.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





