[發明專利]基于Spark大數據平臺的三支決策不平衡數據過采樣方法有效
| 申請號: | 201611244051.4 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106599935B | 公開(公告)日: | 2019-07-19 |
| 發明(設計)人: | 胡峰;王蕾;歐陽衛華;于洪;王進;雷大江;李智星;瞿原;趙蕊;張其龍 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 劉小紅 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 spark 數據 平臺 決策 不平衡 采樣 方法 | ||
1.一種基于Spark大數據平臺的三支決策不平衡數據過采樣方法,其特征在于,包括以下步驟:
1)、在數據預處理階段,獲取并存儲需要采樣的樣本集,對整個樣本使用Spark進行數據變換,得到歸一化的LabeledPoint格式<label:[features]>的樣本集,然后分成訓練集和測試集;
2)、訓練集劃分階段,采用Spark進行數據變換,求樣本間的距離,確定鄰域半徑,最后根據鄰域三支決策模型將整個訓練集中的樣本劃分成正域樣本,邊界域樣本和負域樣本;
3)、采樣階段,首先利用Spark進行數據變換得到邊界域中每個小類樣本的K近鄰,然后插值采樣,對負域中的樣本通過放大負域中小類樣本的鄰域半徑,篩選非噪聲點,進行過采樣處理操作:對每個非噪聲點找到距離其最近的小類樣本,在以兩者距離為鄰域半徑的鄰域內合成K個新的小類樣本點;
步驟3)利用Spark進行數據變換得到邊界域中每個小類樣本的K近鄰,然后插值采樣包括步驟:對轉化后的type_RDD,調用Filter算子,選擇xi的類別為小類樣本且xi的類型為邊界域樣本的記錄,定義為新的BND_RDD;然后與持久化在內存中的RDD進行join操作,篩選得到屬于邊界域的小類樣本,然后調用Map算子,最終得到<xi的標號,[xi的特征集],[xj的特征集]>,其中xi和xj的類別均為小類樣本,且xi的類型為邊界域樣本,最后調用Map算子根據樣本合成公式合成K個新小類樣本,格式為<類別=1,[新特征集]>添加到用來存儲新合成的樣本NewSimpleSet;
4)、訓練驗證階段,選取訓練器進行訓練驗證,對采樣前和采樣后的實驗結果對比。
2.根據權利要求1所述的基于Spark大數據平臺的三支決策不平衡數據過采樣方法,其特征在于,所述步驟1)獲取并存儲需要采樣的樣本集,對整個樣本使用Spark進行數據變換,得到歸一化的LabeledPoint格式<label:[features]>的樣本集,然后分成訓練集和測試集具體包括步驟:
首先創建SparkContext對象,然后用textFile URL函數創建分布式數據集RDD,一旦創建完成,這個分布式數據集就可以被并行操作;其次,將每個樣本集轉化成LabeledPoint形式,調用Map算子將<特征1,特征2,…,類別>形式的樣本轉化成<類別:[特征集]>形式,然后采用最大值,最小值進行歸一化,最后調用zipWithIndex算子,給每一條樣本做一個標號,將創建的RDD轉化成<標號,<類別,[特征集]>>形式,最后根據標號將整個數據集劃分成10份,隨機選取一份當作測試集,剩余九份當作訓練集,即采用十折交叉驗證。
3.根據權利要求2所述的基于Spark大數據平臺的三支決策不平衡數據過采樣方法,其特征在于,所述步驟2)中采用Spark進行數據變換,求樣本間的距離具體包括:首先,定義廣播變量bc,即利用SparkContext對象的BroadCast算子將RDD作為廣播變量廣播到每個計算節點上;然后RDD調用mapPartitions算子,計算每個Partition上的樣本與廣播變量中樣本全集的歐式距離,將RDD轉化成<xi的標號,xi類別,xj的標號,xj的類別,xi與xj的距離dis,[xi的特征集],[xj的特征集]>格式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611244051.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種吊艙故障診斷方法
- 下一篇:一種基于二進制蟻群算法的特征選擇方法及系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





