[發明專利]基于熵和置信度的不平衡數據欠采樣方法在審
| 申請號: | 202210050779.2 | 申請日: | 2022-01-17 |
| 公開(公告)號: | CN114511008A | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 馮鈺舒;馮本勇;張越;張麗萍;馮鈺珊 | 申請(專利權)人: | 馮鈺舒 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 西安方諾專利代理事務所(普通合伙) 61285 | 代理人: | 李思瓊 |
| 地址: | 050000 河北省石家莊市*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 置信 不平衡 數據 采樣 方法 | ||
1.基于熵和置信度的不平衡數據欠采樣方法,其特征在于,包括以下步驟,
S1:定義不平衡數據集為X,其中包含Nn個多數樣本Xn和Np個少數樣本Xp;
S2:計算每個多數樣本的熵
S3:利用多數樣本和少數樣本,基于RUS訓練第一個隨機森林分類器f0(x);
S4:基于置信度和熵,計算經過步驟S3訓練后的集合中多數樣本的最終秩Ranki;
S5:用所有少數樣本Xp和具有最低秩的多數樣本訓練下一個隨機森林分類器;
S6:重復步驟S4和步驟S5,直到隨機森林分類器fl(x)中的l大于L,得到由fj(x)(j=0,1,...,L)組成的集合,式中,l表示從一開始到現在累積的迭代次數,L為數據集增強迭代次數。
2.根據權利要求1所述的基于熵和置信度的不平衡數據欠采樣方法,其特征在于,步驟S2的具體操作包括以下步驟,
S201:將xi∈X的模糊隸屬熵定義為
式中,k表示在歐幾里得距離中最接近多數樣本xi的樣本數,表示最近的k個樣本中多數樣本的數量,表示最近的k個樣本中少數樣本的數量;
S202:計算每個多數樣本的類確定性熵Entropycer和結構密度熵Entropystr;
S203:計算每個多數樣本的熵
式中,norm為歸一化系數,
3.根據權利要求2所述的基于熵和置信度的不平衡數據欠采樣方法,其特征在于,步驟S202中每個多數樣本的類確定性熵Entropycer的計算方法為式中,Entropymax=-ln 0.5,
4.根據權利要求3所述的基于熵和置信度的不平衡數據欠采樣方法,其特征在于,步驟S202中每個多數樣本的結構密度熵Entropystr的計算方法為式中,diq=||xi-xq||(q=1,2,...,k)表示從所有類別的k個最近樣本到多數樣本xi的歐幾里得距離。
5.根據權利要求4所述的基于熵和置信度的不平衡數據欠采樣方法,其特征在于,步驟S3的具體操作包括以下步驟,
S301:由RUS從多數樣本中選擇出個多數樣本,也即
S302:使用所有的Np個少數樣本Xp,以及步驟S301中選出的多數樣本對第一個隨機森林分類器f0(x)進行訓練,其中,隨機森林分類器可表示為fj(x)(j=0,1,...,L),式中,T為隨機森林模型的樹數,
6.根據權利要求5所述的基于熵和置信度的不平衡數據欠采樣方法,其特征在于,步驟S4的具體操作包括以下步驟,
S401:計算經過步驟S3訓練后的集合中每個多數樣本的置信度Confin;
S402:將步驟S401計算得到的每個多數樣本的置信度Confin與步驟S2計算得到的對應多數樣本的熵進行加權,得到多數樣本的最終秩Ranki(i=1,2,...,Nn);式中,λ為置信度和熵之間的權重系數。
7.根據權利要求6所述的基于熵和置信度的不平衡數據欠采樣方法,其特征在于,步驟S5的具體操作包括以下步驟,
S501:從具有最低的Xn中選擇
S502:用所有少數樣本Xp,以及步驟S501中選出的多數樣本,對隨機森林分類器進行訓練,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于馮鈺舒,未經馮鈺舒許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210050779.2/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





