[發(fā)明專利]一種面向大規(guī)模數(shù)據(jù)集的相關(guān)向量機(jī)分類方法有效
| 申請?zhí)枺?/td> | 201710225520.6 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN107103332B | 公開(公告)日: | 2018-06-26 |
| 發(fā)明(設(shè)計)人: | 劉芳;鐘昊;李思瀚;童蜜;秦王晨;趙斐 | 申請(專利權(quán))人: | 武漢理工大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 李丹 |
| 地址: | 430070 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 大規(guī)模數(shù)據(jù)集 弱分類器 向量機(jī)分類 向量機(jī) 子節(jié)點 分布式計算平臺 獲取方式 集成學(xué)習(xí) 結(jié)合集成 模型訓(xùn)練 性能降低 運行過程 組合策略 最終模型 不均衡 大數(shù)據(jù) 分類 準(zhǔn)確率 集群 改進(jìn) 保證 學(xué)習(xí) | ||
本發(fā)明公開了一種面向大規(guī)模數(shù)據(jù)集的相關(guān)向量機(jī)分類方法,該方法針對傳統(tǒng)相關(guān)向量機(jī)對較大數(shù)據(jù)集的性能降低問題,結(jié)合集成學(xué)習(xí)的思想,對方法的弱分類器獲取方式進(jìn)行改進(jìn),解決了方法運行過程中可能的數(shù)據(jù)局部不均衡問題,然后利用Spark分布式計算平臺的特點將大規(guī)模數(shù)據(jù)集分類任務(wù)分布到集群的各個子節(jié)點上,從而有效提升模型訓(xùn)練的速度,實現(xiàn)相關(guān)向量機(jī)對大規(guī)模數(shù)據(jù)集的良好支持,通過集成學(xué)習(xí)中弱分類器的組合策略,將每個子節(jié)點得到的弱分類器結(jié)合,保證最終模型的準(zhǔn)確率。對于大規(guī)模數(shù)據(jù)集的分類,本發(fā)明方法具有良好的效果。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域,尤其涉及一種面向大規(guī)模數(shù)據(jù)集的相關(guān)向量機(jī)分類方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,基于互聯(lián)網(wǎng)統(tǒng)計和分析生成的數(shù)據(jù)大多都是大規(guī)模甚至海量數(shù)據(jù)。面對此類信息規(guī)模大、增長速度快的數(shù)據(jù),如何高效、精確地對這些數(shù)據(jù)進(jìn)行組織和分類是當(dāng)前互聯(lián)網(wǎng)信息時代的一大難題。使用傳統(tǒng)平臺進(jìn)行數(shù)據(jù)分析時,通常的分類方法大多數(shù)是以串行的方式來完成相關(guān)計算任務(wù),而且運行的平臺在很大程度上受到了計算機(jī)性能的約束,當(dāng)數(shù)據(jù)量增大時,方法性能會急劇下降,從而導(dǎo)致方法分類過程無法高效進(jìn)行。
相關(guān)向量機(jī)(relevance vector machine,RVM)是一種新的監(jiān)督學(xué)習(xí)方法,與支持向量機(jī)(support vector machine,SVM)相比,它是一種基于貝葉斯的概率稀疏模型。通過在參數(shù)上定義受超參數(shù)控制的Gaussian先驗概率,在貝葉斯框架下進(jìn)行機(jī)器學(xué)習(xí),利用自相關(guān)判定理論來移除不相關(guān)的點,從而獲得稀疏化模型。由于在樣本數(shù)據(jù)的迭代學(xué)習(xí)過程中,大部分參數(shù)的后驗分布趨于零,而非零的參數(shù)所對應(yīng)的學(xué)習(xí)樣本和決策域的樣本不相關(guān),只代表數(shù)據(jù)中的原型樣本,因此稱這些樣本為相關(guān)向量,體現(xiàn)了數(shù)據(jù)中最核心的特征。相關(guān)向量機(jī)最大的優(yōu)點是極大的減少了核函數(shù)的計算量,并且在選取核函數(shù)時,不再受限于一定的條件,可選擇的核函數(shù)大大增多。基于以上優(yōu)點,相關(guān)向量機(jī)在諸多領(lǐng)域中性能表現(xiàn)都十分優(yōu)秀。但是傳統(tǒng)的相關(guān)向量機(jī)在面對大規(guī)模數(shù)據(jù)集進(jìn)行分類和回歸預(yù)測的時候,出現(xiàn)了效率極大的降低問題。
近些年來,關(guān)于大數(shù)據(jù)分布式技術(shù)的發(fā)展十分迅速,誕生了很多分布式框架,通過用這些分布式框架來進(jìn)行分布式計算可以有效的提升方法的運行效率,現(xiàn)在流行的大數(shù)據(jù)框架有Storm、Hadoop、Spark等。Storm適用于進(jìn)行實時計算,Hadoop則更加適用于進(jìn)行離線運算和對時延要求不高的任務(wù),而Spark因為是基于內(nèi)存進(jìn)行運算,在進(jìn)行迭代計算時,傳統(tǒng)MapReduce(Hadoop框架核心編程計算模式)雖然具有自動容錯、平衡負(fù)載和可擴(kuò)展性的優(yōu)點,但是因為它是采用非循環(huán)式的數(shù)據(jù)流模型,導(dǎo)致在進(jìn)行迭代計算時要進(jìn)行大量的磁盤IO操作,從而使得此類任務(wù)的性能受到極大限制,而在Spark中,通過RDD(ResilientDistributed Dataset,彈性分布數(shù)據(jù)集)將數(shù)據(jù)加載在內(nèi)存中,便于之后的多次重用,使得它在處理迭代式計算時效果十分優(yōu)秀。但是在Spark進(jìn)行樣本分區(qū)的過程中,樣本是隨機(jī)分布的,有可能導(dǎo)致某些分區(qū)中正負(fù)樣本數(shù)目不均衡,從而導(dǎo)致得到的弱分類器整體性能受到影響,進(jìn)而影響最終所得強(qiáng)分類器的性能。
Adaboost是基于PAC學(xué)習(xí)理論而建立的一套集成學(xué)習(xí)方法,其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強(qiáng)的最終分類器(強(qiáng)分類器)。Adaboost方法是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器融合起來,作為最后的決策分類器。使用Adaboost分類器可以排除一些不必要的訓(xùn)練數(shù)據(jù)特征,并將關(guān)鍵放在重要的訓(xùn)練數(shù)據(jù)上面。Adaboost方法是一種實現(xiàn)簡單,應(yīng)用也很簡單的方法。它通過組合弱分類器而得到強(qiáng)分類器,同時具有分類錯誤率上界隨著訓(xùn)練增加而穩(wěn)定下降,不會過擬合等的性質(zhì),應(yīng)該說是一種很適合于在各種分類場景下應(yīng)用的方法。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢理工大學(xué),未經(jīng)武漢理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710225520.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:照明裝置及顯示裝置
- 下一篇:云臺智能攝像頭(蛋形)
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種單機(jī)的大規(guī)模數(shù)據(jù)集的聚類挖掘方法
- 一種高效的實現(xiàn)大規(guī)模數(shù)據(jù)交換的系統(tǒng)及其方法
- 一種面向大規(guī)模數(shù)據(jù)的快速多代表點仿射傳播方法
- 一種面向大規(guī)模數(shù)據(jù)集的相關(guān)向量機(jī)分類方法
- 一種基于標(biāo)簽自提純的深度學(xué)習(xí)方法
- 大規(guī)模數(shù)據(jù)集的頻繁項集挖掘方法、裝置、設(shè)備及介質(zhì)
- 一種大規(guī)模數(shù)據(jù)集的Skyline查詢方法及其系統(tǒng)
- 一種基于模糊C均值的分布式集成聚類分析方法
- 基于FPGA-CPU異構(gòu)環(huán)境的大規(guī)模數(shù)據(jù)查詢加速裝置及方法
- 一種基于數(shù)據(jù)壓縮的網(wǎng)絡(luò)模型構(gòu)建方法、系統(tǒng)和介質(zhì)
- 二叉樹多類支持向量機(jī)遙感分類方法
- 一種基于支持向量機(jī)的成捆棒材識別計數(shù)方法
- 一種基于支持向量機(jī)的電網(wǎng)大數(shù)據(jù)隱私保護(hù)分類挖掘方法
- 一種基于孿生支持向量機(jī)的指紋圖像分類系統(tǒng)與方法
- 一種基于多層支持向量機(jī)的水果品質(zhì)分類方法
- 一種基于獨立向量分析和支持向量機(jī)的地質(zhì)災(zāi)害次聲信號分類識別方法及裝置
- 一種分?jǐn)?shù)階C-支持向量機(jī)及其設(shè)計方法和應(yīng)用
- 一種分?jǐn)?shù)階C-支持向量機(jī)及其設(shè)計、優(yōu)化方法和應(yīng)用
- 一種高光譜圖像分類方法及系統(tǒng)
- 一種跨技術(shù)通信的欺騙攻擊檢測方法
- 一種基于二類核函數(shù)支持向量機(jī)的車型識別方法
- 一種基于二類支持向量機(jī)和遺傳算法的轎車車型識別方法
- 一種用于支持向量機(jī)的在線向量選取方法
- 一種基于支持向量機(jī)的成捆棒材識別計數(shù)方法
- 數(shù)據(jù)傳輸方法及相關(guān)設(shè)備
- 基于支持向量機(jī)的路口智能駕駛方法及其系統(tǒng)
- 一種分?jǐn)?shù)階C-支持向量機(jī)及其設(shè)計方法和應(yīng)用
- 一種分?jǐn)?shù)階C-支持向量機(jī)及其設(shè)計、優(yōu)化方法和應(yīng)用
- 一種基于主從支持向量機(jī)的低功耗癲癇檢測電路
- 支持向量機(jī)的生成方法、裝置、電子設(shè)備及存儲介質(zhì)





