[發明專利]一種對不均衡數據進行處理的方法及系統在審
| 申請號: | 201711170061.2 | 申請日: | 2017-11-22 |
| 公開(公告)號: | CN108319967A | 公開(公告)日: | 2018-07-24 |
| 發明(設計)人: | 張雪瑩;李瑞賢;楊云祥;郭靜;吉祥;胡校成;唐先超;宋超;江逸楠;段銳;陽兵 | 申請(專利權)人: | 中國電子科技集團公司電子科學研究院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 工業和信息化部電子專利中心 11010 | 代理人: | 于金平 |
| 地址: | 100041 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 不均衡 數據處理 最近鄰算法 個人使用 實例學習 學習性能 有效解決 數據集 偏好 預測 學習 | ||
1.一種對不均衡數據進行處理的方法,其特征在于,包括:
構建元知識數據庫;
基于實例學習的k-最近鄰算法給出未知數據集上所有候選不均衡數據處理方法的排名。
2.根據權利要求1所述的方法,其特征在于,構建元知識數據庫具體包括:
根據歷史不均衡數據集,抽取描述數據集本身特征的度量,構建特征向量作為元特征,同時評估各數據集上所有候選不均衡數據處理方法的分類性能,并將所有方法按分類性能排序,獲取相應的排名作為元目標;然后,將每個數據集的特征向量與不均衡數據處理方法的排名一一對應,建立數據集特征-不均衡數據處理方法的排名的元知識數據庫。
3.根據權利要求1所述的方法,其特征在于,構建元知識數據庫的步驟之后,基于實例學習的k-最近鄰算法給出未知數據集上所有候選不均衡數據處理方法的排名的步驟之前,還包括:
對待處理的不均衡數據集進行元特征提取,并對待處理的不均衡數據集進行元目標識別。
4.根據權利要求3所述的方法,其特征在于,對待處理的不均衡數據集進行元特征提取,具體包括:
通過數據集特征度量描述不均衡分類問題的本質特征。
5.根據權利要求4所述的方法,其特征在于,
所述數據集特征度量包括傳統的特征度量、問題復雜度、Landmarking度量、基于模型度量以及結構信息度量中的一種或多種。
6.根據權利要求3所述的方法,其特征在于,所述對待處理的不均衡數據集進行元目標識別,具體包括:
基于不均衡數據集的分類精度AUC以及運行時間衡量不均衡數據處理方法的性能,對待處理的不均衡數據集進行元目標識別。
7.根據權利要求6所述的方法,其特征在于,還包括:
通過Spearman序列相關系數衡量推薦的不均衡數據處理方法的排名與實際排名之間的一致性,其中,rri和iri分別代表不均衡數據處理方法i的推薦排名和實際排名,m是候選不均衡數據處理方法的個數。rs的取值范圍為[-1,1],rs越大,推薦排名與實際排名越相關。當推薦排名與實際排名完全吻合時,則rs=1;當推薦排名與實際排名不完全吻合時,rs≤1;時,當推薦排名與實際排名不相關,則rs=0;當推薦排名與實際排名完全相反,則rs≤-1;
當推薦的不均衡數據處理方法的分類性能落在區間內時,表明推薦的是最優不均衡數據處理方法;否則,表明推薦的方法不可用,其中NT為指測試集大小,ω為置信度。
8.根據權利要求1所述的方法,其特征在于,基于實例學習的k-最近鄰算法給出未知數據集上所有候選不均衡數據處理方法的排名,具體包括:
通過極值法對元知識數據庫中的元特征及待分類數據集的特征向量均映射到[0,1]區間;
基于規范化后的元知識數據庫,通過公式找出與待分類數據集最相似的k個最近鄰,其中,data表示待分類數據集,di代表元知識數據庫中第i個數據集,Vx,data和Vx,di分別代表數據集data和di中第x個元特征值。
9.一種對不均衡數據進行處理的系統,其特征在于,所述系統包括處理器、存儲器及通信總線;
所述通信總線用于實現處理器和存儲器之間的連接通信;
所述處理器用于執行存儲器中存儲的計算機指令,以實現權利要求1至9中任一項所述的對不均衡數據進行處理的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司電子科學研究院,未經中國電子科技集團公司電子科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711170061.2/1.html,轉載請聲明來源鉆瓜專利網。





