[發明專利]一種樣本均衡方法、裝置、設備及存儲介質在審
| 申請號: | 202210132426.7 | 申請日: | 2022-02-14 |
| 公開(公告)號: | CN114511760A | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 劉毅然 | 申請(專利權)人: | 中國農業銀行股份有限公司 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06V10/764;G06K9/62 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 趙翠香 |
| 地址: | 100005 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 樣本 均衡 方法 裝置 設備 存儲 介質 | ||
本發明公開了一種樣本均衡方法、裝置、設備及存儲介質。該方法包括:對獲取到的初始樣本集進行劃分,得到多數類樣本集和少數類樣本集;根據所述多數類樣本集和所述少數類樣本集包含的樣本數量,確定樣本生成總數量;基于所述少數類樣本集中少數類樣本的空間分布情況,確定各所述少數類樣本的識別難度;根據各所述識別難度,結合所述樣本生成總數量,確定各所述少數類樣本對應的樣本生成分數量;采用線性插值的方法,針對各所述少數類樣本生成對應樣本生成分數量個新樣本數據,以實現樣本均衡。本發明在樣本過采樣時有效減少噪聲,在樣本分類邊界模糊處生成更多新樣本,進而提高分類模型的訓練效果,使分類模型更注重在分類邊界處的學習。
技術領域
本發明實施例涉及數據處理技術領域,尤其涉及一種樣本均衡方法、裝置、設備及存儲介質。
背景技術
在機器學習分類問題中,樣本不均衡問題常常會影響分類模型的分類性能。在金融、醫學、入侵檢測等領域的分類問題中,異常的數據極少,分類模型通過原始數據往往并不能獲得對少數類樣本的良好分辨能力。
以金融領域為例,在數據挖掘實踐中樣本不均衡問題廣泛存在,如獲取到的風控、入侵檢測等方面的歷史數據,大部分都是正常值,異常樣本極少,但這些異常樣本相對正常樣本包含更大的信息量,因此,正確識別異常樣本成為分類模型的一個學習目標。
通常來說,分類模型的訓練目標是獲得更高的精度,但分類算法大多只能在樣本類型分布差異不大的數據集上獲得較好的學習效果。在數據類型分布差異較大的數據集上,高精度并不意味著對少數類樣本有較好的識別能力。一個極端的例子是,在一個樣本比例為99:1的二分類數據集上,模型將所有的數據判別為多數類,依然有99%的正確率,但這樣的模型沒有實際意義,因為它沒有對少數類樣本的識別能力。
由于處理二分類問題的方法容易擴展到多分類問題中,因此可以以處理二分類問題的樣本均衡問題為例,二分類問題的混淆矩陣如下,在該矩陣中,定義少數類的標簽值為1,多數類為0。
預測類型為1 預測類型為0 實際類型為1 TP FN 實際類型為0 FP TN
分類模型的分類精度可以定義為:
此外,模型對少數類樣本識別能力的指標準確率(precision)、召回率(recall)可以表示如下:
模型的總體性能的指標F值可以定義如下:
為了提高算法對少數類樣本的分類準確率與召回率,對少數類樣本進行過采樣是一種常用的手段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國農業銀行股份有限公司,未經中國農業銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210132426.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分級加氫站及加氫方法
- 下一篇:車輛起步控制方法及系統





