[發(fā)明專利]一種面向大規(guī)模數(shù)據(jù)集的相關(guān)向量機分類方法有效
| 申請?zhí)枺?/td> | 201710225520.6 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN107103332B | 公開(公告)日: | 2018-06-26 |
| 發(fā)明(設(shè)計)人: | 劉芳;鐘昊;李思瀚;童蜜;秦王晨;趙斐 | 申請(專利權(quán))人: | 武漢理工大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 李丹 |
| 地址: | 430070 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 大規(guī)模數(shù)據(jù)集 弱分類器 向量機分類 向量機 子節(jié)點 分布式計算平臺 獲取方式 集成學(xué)習(xí) 結(jié)合集成 模型訓(xùn)練 性能降低 運行過程 組合策略 最終模型 不均衡 大數(shù)據(jù) 分類 準(zhǔn)確率 集群 改進 保證 學(xué)習(xí) | ||
1.一種面向大規(guī)模數(shù)據(jù)集的相關(guān)向量機分類方法,其特征在于,該方法包括以下幾個步驟:
1)數(shù)據(jù)采集:通過傳感器對被測對象進行實時檢測,采集被測對象的在不同工作狀態(tài)下的數(shù)據(jù);所述被測對象的工作狀態(tài)包括正常工作狀態(tài)和異常工作狀態(tài),工作狀態(tài)根據(jù)分類需求劃分;
2)獲取樣本集:對采集的數(shù)據(jù)進行樣本提取,得到總體樣本集并存儲在數(shù)據(jù)存儲模塊上;
3)在Spark分布式平臺下將總體樣本集切分成若干等份,將切分后的樣本集分配到集群子節(jié)點上,對樣本的權(quán)值進行初始化,同時所有子節(jié)點共享一個提升樣本數(shù)據(jù)集,用于提升訓(xùn)練;
4)在集群子節(jié)點上對樣本集每一維進行訓(xùn)練得到若干個RVM弱分類器;
5)得到弱分類器后對共享的提升訓(xùn)練數(shù)據(jù)集進行測試,并將得到的結(jié)果返回至父節(jié)點,父節(jié)點中給提升訓(xùn)練集樣本分配相同權(quán)值;
6)以相同數(shù)據(jù)集得到的若干個弱分類器為一組進行迭代運算,計算每一組弱分類器的帶權(quán)誤差;所述相同數(shù)據(jù)集是指步驟3)中切分后的樣本集中的同一樣本集;
7)選擇一組訓(xùn)練子集所得的弱分類器對帶權(quán)誤差進行比較,選取每一組弱分類器中帶權(quán)值誤差最小的分類器,并計算該分類器對應(yīng)的置信度;
8)對樣本權(quán)值進行更新,選擇另外一組訓(xùn)練子集所得的弱分類器為一組,再重復(fù)步驟6)和7)中操作選取帶權(quán)值誤差最小的分類器,循環(huán)迭代一次進行一次權(quán)值更新,直至所有訓(xùn)練子集選擇完畢結(jié)束迭代;
9)根據(jù)步驟8)中所選取的弱分類器進行組合,得到被測對象工作狀態(tài)的最終分類器,根據(jù)分類器結(jié)果對被測對象工作情況進行判斷。
2.根據(jù)權(quán)利要求1所述的面向大規(guī)模數(shù)據(jù)集的相關(guān)向量機分類方法,其特征在于,所述步驟1)中,數(shù)據(jù)采集過程具體如下:
采用數(shù)據(jù)采集傳感器對被測對象進行實時檢測,被測對象需設(shè)置在工作正常和工作異常兩種工作狀態(tài)檢測,數(shù)據(jù)采集傳感器將檢測所得的傳感信號轉(zhuǎn)為數(shù)值數(shù)據(jù),同步傳送至數(shù)據(jù)邏輯模塊,相應(yīng)獲得被測對象的兩組不同工作狀態(tài)下的相關(guān)數(shù)據(jù);兩組數(shù)據(jù)的組成是被測對象在不同采樣時刻以一定的采樣頻率所檢測到的大量數(shù)據(jù)集。
3.根據(jù)權(quán)利要求1所述的面向大規(guī)模數(shù)據(jù)集的相關(guān)向量機分類方法,其特征在于,所述步驟2)中,樣本集的獲取過程具體如下:
2.1)特征分類:數(shù)據(jù)邏輯模塊接收到來自數(shù)據(jù)采集模塊的數(shù)據(jù)后,提取出能代表并區(qū)別該檢測數(shù)據(jù)的一組特征參數(shù),且該組特征參數(shù)包括W個特征量,并對特征向量進行編號;
2.2)樣本集獲取:經(jīng)特征提取后的數(shù)據(jù)按檢測時間組成樣本,一條樣本中包含相同檢測時間下的W個特征量;樣本數(shù)據(jù)集由訓(xùn)練樣本、提升樣本和測試樣本以設(shè)定比例組成,對樣本中工作正常狀態(tài)下的樣本和工作異常狀態(tài)下的樣本數(shù)量根據(jù)實際需要按設(shè)定比例調(diào)配。
4.根據(jù)權(quán)利要求1所述的面向大規(guī)模數(shù)據(jù)集的相關(guān)向量機分類方法,其特征在于,所述步驟3)中,樣本xi初始化權(quán)值采用以下公式
D1(xi)=1/N,i=1,2,3...N
其中N為樣本的總數(shù)量,i為樣本集的索引號。
5.根據(jù)權(quán)利要求1所述的面向大規(guī)模數(shù)據(jù)集的相關(guān)向量機分類方法,其特征在于,所述步驟3)中,若存在對數(shù)據(jù)不均衡的數(shù)據(jù)集,采用Smote算法生成若干個少數(shù)類別的新樣本得到一個新的樣本集。
6.根據(jù)權(quán)利要求5所述的面向大規(guī)模數(shù)據(jù)集的相關(guān)向量機分類方法,其特征在于,對于數(shù)據(jù)不均衡的數(shù)據(jù)集使用Smote算法生成新樣本而得到新樣本集方法如下:
步驟3.1)對于該類數(shù)據(jù)集中的每一個樣本x,以歐氏距離為標(biāo)準(zhǔn)計算它到樣本集中所有樣本的距離,得到其k近鄰;
步驟3.2)根據(jù)樣本不平衡比例設(shè)置一個采樣比例以確定采樣倍率;
步驟3.3)對于每一個該類數(shù)據(jù)集中樣本,從其k近鄰中隨機選擇若干個樣本,假設(shè)選擇的近鄰為xk,分別與原樣本x按照以下公式構(gòu)建新的樣本xnew;
xnew=x+rand(0,1)×(xk-x)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢理工大學(xué),未經(jīng)武漢理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710225520.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:照明裝置及顯示裝置
- 下一篇:云臺智能攝像頭(蛋形)
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種單機的大規(guī)模數(shù)據(jù)集的聚類挖掘方法
- 一種高效的實現(xiàn)大規(guī)模數(shù)據(jù)交換的系統(tǒng)及其方法
- 一種面向大規(guī)模數(shù)據(jù)的快速多代表點仿射傳播方法
- 一種面向大規(guī)模數(shù)據(jù)集的相關(guān)向量機分類方法
- 一種基于標(biāo)簽自提純的深度學(xué)習(xí)方法
- 大規(guī)模數(shù)據(jù)集的頻繁項集挖掘方法、裝置、設(shè)備及介質(zhì)
- 一種大規(guī)模數(shù)據(jù)集的Skyline查詢方法及其系統(tǒng)
- 一種基于模糊C均值的分布式集成聚類分析方法
- 基于FPGA-CPU異構(gòu)環(huán)境的大規(guī)模數(shù)據(jù)查詢加速裝置及方法
- 一種基于數(shù)據(jù)壓縮的網(wǎng)絡(luò)模型構(gòu)建方法、系統(tǒng)和介質(zhì)
- 二叉樹多類支持向量機遙感分類方法
- 一種基于支持向量機的成捆棒材識別計數(shù)方法
- 一種基于支持向量機的電網(wǎng)大數(shù)據(jù)隱私保護分類挖掘方法
- 一種基于孿生支持向量機的指紋圖像分類系統(tǒng)與方法
- 一種基于多層支持向量機的水果品質(zhì)分類方法
- 一種基于獨立向量分析和支持向量機的地質(zhì)災(zāi)害次聲信號分類識別方法及裝置
- 一種分?jǐn)?shù)階C-支持向量機及其設(shè)計方法和應(yīng)用
- 一種分?jǐn)?shù)階C-支持向量機及其設(shè)計、優(yōu)化方法和應(yīng)用
- 一種高光譜圖像分類方法及系統(tǒng)
- 一種跨技術(shù)通信的欺騙攻擊檢測方法
- 一種基于二類核函數(shù)支持向量機的車型識別方法
- 一種基于二類支持向量機和遺傳算法的轎車車型識別方法
- 一種用于支持向量機的在線向量選取方法
- 一種基于支持向量機的成捆棒材識別計數(shù)方法
- 數(shù)據(jù)傳輸方法及相關(guān)設(shè)備
- 基于支持向量機的路口智能駕駛方法及其系統(tǒng)
- 一種分?jǐn)?shù)階C-支持向量機及其設(shè)計方法和應(yīng)用
- 一種分?jǐn)?shù)階C-支持向量機及其設(shè)計、優(yōu)化方法和應(yīng)用
- 一種基于主從支持向量機的低功耗癲癇檢測電路
- 支持向量機的生成方法、裝置、電子設(shè)備及存儲介質(zhì)





