[發明專利]一種基于SVM-forest的從非平衡類數據中提取敏感數據的方法有效
| 申請號: | 201710849226.2 | 申請日: | 2017-09-20 |
| 公開(公告)號: | CN107728476B | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 葛志強;陳革成 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 svm forest 平衡 數據 提取 敏感數據 方法 | ||
本發明公開一種基于SVM?forest的從非平衡類數據中提取敏感數據的方法,該方法先從有標簽樣本取出一部分作為測試樣本,剩余作為訓練樣本,采用k?means將正常工況類別分割為子類,并與故障工況類別數據混合,形成N個訓練子集,并使用SVM?tree的方法訓練出SVM?forest,并利用測試樣本對對SVM?forest進行測試,選擇對故障工況錯分率最高的L棵樹,保留一部分對分類效果影響較大的數據,然后根據選擇分類算法對測試集中的少數類和剩下的多數類訓練出一個分類器T,并使用臨時測試樣本測試T的分類效果,直到效果達到要求。本發明的敏感數據提取方法通過多次迭代選取多數樣本集中對分類效果影響較大的樣本,以此降低不平衡度,使分類效果接近或者達到同等情況下的均衡分類效果。
技術領域
本發明屬于工業過程控制領域,尤其涉及一種基于SVM-forest的從非平衡類數據中提取敏感數據的方法。
背景技術
在工業故障分類的工作中,一些常用的分類方法都會有一個使用前提,即在訓練集中各類數據的數據量相當。但是現實的情況往往不是這樣,當某一類數據很多,或者某一類數據很少,即不平衡類數據出現時,直接使用傳統的分類方法則會產生很大的分類誤差。
發明內容
針對現有技術的不足,本發明提出一種基于SVM-forest的從非平衡類數據中提取敏感數據的方法,該方法主要針對采樣層面對傳統分類方法進行改進,通過多次迭代選取多數樣本集中對分類效果影響較大的樣本,以此降低不平衡度,使分類效果接近或者達到同等情況下的均衡分類效果。具體技術方案如下:
一種基于SVM-forest的從非平衡類數據中提取敏感數據的方法,其特征在于,包括以下步驟:
步驟一:收集建模用的有標簽樣本,對其進行預處理和歸一化,所述的有標簽樣本包括工業過程中正常工況的數據以及各種故障工況的數據,分為C個故障工況類別和1個正常工況類別,按類別取出10%~20%的樣本作為臨時測試樣本集Q,剩余的80%~90%作為訓練樣本集,即Xl=[X1;X2;...;Xi;...;XC+1],其中,Xi表示每個類別的樣本集其中ni為訓練樣本數,m為過程變量數,R為實數集;記錄所述的有標簽訓練樣本集Xl=[X1;X2;...;XC+1]的所有數據的標簽信息,標記正常工況標簽為1,故障工況標簽依次為2,...,C+1,則每個類別的標簽信息為Yi=[i,i,...i],i=1,2,...,C+1,完整的標簽集為Yl=[Y1;Y2;...;YC+1];其中,正常工況類別n1的數據多于故障工況類別的數據,每個故障工況類別的數據量相等,各個工況數據量的差別用不平衡度為u表征,即
步驟二:使用k-means聚類方法,將正常工況類別X1分為N個子集,X1=[X11;X12;...;X1N],將這N個子集分別與故障工況類別數據組成N個訓練子集,其中,N的取值為考慮不平衡度和計算復雜度的經驗值;
步驟三:對步驟二中的N個訓練子集分別使用SVM-tree方法,得到包含N棵SVM-tree的SVM-forest;
步驟四:使用臨時測試樣本集Q對步驟三中的每棵SVM-tree進行測試,計算出每棵SVM-tree對于所有故障工況類別的錯分率;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710849226.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電纜三維模型審查系統及方法
- 下一篇:一種含有BGA芯片的單板設計方法





