[發明專利]面向高維和不平衡數據分類的集成在審
| 申請號: | 201610218160.2 | 申請日: | 2016-04-08 |
| 公開(公告)號: | CN107273387A | 公開(公告)日: | 2017-10-20 |
| 發明(設計)人: | 李臻 | 申請(專利權)人: | 上海市玻森數據科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海申新律師事務所31272 | 代理人: | 夏海天 |
| 地址: | 200000 上海市寶*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 維和 不平衡 數據 分類 集成 | ||
1.面向高維和不平衡數據分類的集成,其特征在于,采用降維和取樣的先后順序,將預處理策略減少為兩類;基于實驗結論的可重現性原則,選取數據挖掘和機器學習的一些標準數據集作為實驗數據;在預處理方法的選擇上,增加了封裝式(Wrapper)特征選擇方法和過取樣方法;從屬性個數和不平衡程度兩方面研究預處理方法對高維不平衡數據分類性能的影響;
降維方法分為兩類:特征選擇和特征變換,特征選擇方法依據是否獨立于后續的學習算法分為過濾式(Filter)和封裝式(Wrapper)兩種,過濾式與后續學習算法無關,一般直接利用所有訓練數據的統計性能評估特征,速度快,但評估與后續學習算法的性能偏差較大;封裝式利用后續學習算法的訓練準確率評估特征子集,偏差小,計算量大,不適合于大數據量,特征變換不同于特征選擇之處在于其輸出結果不是原有的屬性,而是基于某種變換原則所產生的新屬性,由于變換后的屬性改變了原有屬性的物理特性,同時一些特征變換方法通常針對連續屬性數據,再此不考慮特征變換方法,取樣方法包括兩種:欠取樣和過取樣,預處理采用降維方法和取樣方法;
降維方法的評估直接依賴于數據集本身,通常認為相關性較大的特征或特征子集可獲得較高的分類準確率,常見的Filter特征選擇評估方法有類間距離、信息增益、關聯度和不一致度等,Kohavi曾指出盡管僅考慮數據集的評估方法運行效率高,但尋找與類別相關的特征或特征子集和選擇可最優化分類準確率的特征或特征子集是兩個不同的問題;
取樣方法是一類常用的預處理技術,利用取樣可以平衡數據,緩解數據中的不平衡問題,取樣方法根據其取樣方向可以分為兩類:過取樣(Over Sampling)和欠取樣(Under Sampling),過取樣增加小類實例,欠取樣則減少大類實例,根據取樣策略分為隨機的和算法的兩類,隨機取樣以隨機方式刪除或增加實例,而算法取樣則根據一定的原則取樣,如刪除靠近大類邊界的實例或者增加任意產生的小類實例等,通常而言,隨機取樣是較為常用的取樣手段,而算法取樣對于實例集的改變可能存在一定的導向性為簡化問題。
2.根據權利要求1所述的面向高維和不平衡數據分類的集成,其特征在于,降維方法關注特征選擇與取樣的組合實驗效果,因此基于簡化原則,選擇簡單、通用且高效的算法,Filter特征選擇算法中選擇信息增益特征選擇 算法和Relief算法,選擇前者的原因在于后續分類算法擬定采用決策樹算法,而信息增益本身就是決策樹屬性選擇的方法;后者則是因為Relief算法是目前比較公認的效果較好的Filter特征選擇算法,Wrapper算法擬定選擇不同的搜索策略構造不同算法,由于Kohavi的實驗研究顯示最佳優先搜索優于貪心搜索(爬山法)方式,在此選擇最佳優先搜索方式,另外,隨機搜索可以提供更為準確的搜索結果,在此同時考慮采用基本遺傳算法的遺傳搜索方式;
信息增益是信息增益是機器學習和信息理論中常用的一種度量方法,在進行類別預測時,已知特征的取值,IG可以度量有關類預測所需要的信息位數,信息增益可被定義為先驗不確定性與期望的后驗不確定性之間的差異,計算給定屬性X關于類屬性Y的IG,需要已知兩個信息:類標號Y本身取值的不確定性和考慮屬性X時的不確定性,這兩個不確定性可以分別表示為Y的熵H(Y)和條件熵H(Y|X);
其中r表示屬性X的取值個數,特征X的IG可定義為:
IG(X)=H(Y)-H(Y|X)
H(Y)表示不考慮特征X時,Y屬性的純度,而H(Y|X)表示考慮了特征X后,Y屬性的純度,若考慮X屬性后,使得Y屬性的劃分更純的話,則認為此特征屬性能夠有效區分類別,熵值越小,而純度越高,也即應該選擇最大信息增益的屬性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海市玻森數據科技有限公司,未經上海市玻森數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610218160.2/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





