[發明專利]一種分類器集成方法有效
| 申請號: | 200810046789.9 | 申請日: | 2008-01-25 |
| 公開(公告)號: | CN101231702A | 公開(公告)日: | 2008-07-30 |
| 發明(設計)人: | 高常鑫;桑農;王岳環;唐奇伶;李密;高峻;笪邦友 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 華中科技大學專利中心 | 代理人: | 曹葆青 |
| 地址: | 430074湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分類 集成 方法 | ||
技術領域
本發明屬于模式識別方法,具體涉及一種通過對子分類器的集成來提高分類器的性能的方法。
背景技術
分類器集成是目標流行的一種提高分類器性能的技術。我們知道分類器性能在模式識別中的重要性,但是有時候單個分類器的精度是有限的,而分類器集成方法正是通過集成各個分類器,構造一個更高性能的分類器,其中常用的是自助聚集(Bagging,bootstrap?aggregation)方法和增強法(Boosting)方法。
Bagging從訓練集中獨立隨機選擇一定個數的數據組成自助數據集,每個自助數據集都被獨立地用于訓練一個子分類器,最終分類結果根據這些子分類器的判決結果來投票決定。
Boosting方法在訓練中先后產生一系列分類器,各個分類器所使用的訓練集都是從總訓練集提出來的一個子集,各個樣本是否出現在該子集中取決于此前產生過的分類器的表現,已有分類器判斷出錯的樣本將以較大的概率出現在新的訓練子集中。這使得其后產生的分類器更加專注于處理對已有分類器來說較為困難的樣本區分問題。
Bagging與Boosting的區別在于Bagging的訓練集的選擇是隨機的,各輪訓練集之間相互獨立,而Boosting的訓練集的選擇不是獨立的,各輪訓練集的選擇與前面各輪的學習結果有關;Bagging的各個預測函數沒有權重,而Boosting是有權重的;Bagging的各個預測函數可以并行生成,而Boosting的各個預測函數只能順序生成。
Bagging和Boosting都可以有效地提高分類器性能,但是在大多數的數據集中Boosting的準確性比Bagging要高,而在大多數應用中,準確率比運算速度更為重要,因為計算機的性價比提高很快,而且數據的訓練是離線的。因此實際中Boosting比Bagging更廣泛的應用。
Boosting方法可以增強給定算法的泛化能力,但是還存在兩個缺點:該方法需要知道子分類器學習正確率的下限,而這在實際問題中是很難做到的;其次,這一方法可能導致后來的分類器過分集中于少數特別困難的樣本,導致表現不穩定。
自適應的Boosting方法(AdaBoost:Adaptive?Boosting)算法的基本思想是利用多個子分類器通過一定的方法疊加起來,構成一個分類能力很強的強分類器。AdaBoost算法是以Boosting算法為基礎的。AdaBoost算法不再需要預先知道子分類器的訓練錯誤率,而是通過動態調節各個子分類器的權值來對基本算法的訓練錯誤率自動適應,因而引起了廣泛的關注。與Boosting算法類似,AdaBoost方法根據既有分類器對總訓練集中的各個樣本的分類情況來調整各個樣本出現在新訓練子集中的概率。不同的是,AdaBoost不需要預先知道子分類器預測準確率的范圍,而是自動根據子分類器的預測準確率設定相應的權值。在使用AdaBoost訓練的時候,訓練錯誤率上限是一個單調下降的函數,這樣,只要基本的分類器的性能能夠穩定的超過隨機猜想,并且循環足夠長時間,就能使經驗錯誤率降至任意低的水平,并有可能保證泛化錯誤率也低于一個近似的上限。它通過建立多分類器組合使得子分類器的性能得到提升,由于其獨有的對分類器性能的自適應和對過學習現象的免疫性,近年來引起了極大的關注,并已在目標檢測中得到廣泛應用。
AdaBoost在理論上非常有優越性,但是AdaBoost在實際應用中也有很多模糊的地方:(1)如何選擇最好的子分類器;(2)如何更好組合這些子分類器。
發明內容
本發明的目的是提出一種分類器集成方法,運用更有效的分類器性能評價準則選擇性能好的子分類器,減少分類器訓練時間和循環次數。
一種分類器集成方法,具體步驟為:
(1)給訓練樣本權值賦初值;
(2)對訓練樣本進行分類器訓練得到C個最佳子分類器,C為訓練次數;
(2.1)令訓練周期t=1;
(2.2)采用權值歸一法確定各訓練樣本在第t輪訓練時的權值;
(2.3)針對訓練樣本的每個特征采取預定分類器設計方法生成相應的子分類器,從中選出最佳子分類器,并計算采用最佳子分類器對所有訓練樣本分類產生的錯誤率;
(2.4)根據錯誤率更新訓練樣本權值;
(2.5)如果t<C,t=t+1,返回步驟(2.2),否則進入步驟(3);
(3)組合C個最佳子分類器;
其特征在于,
所述步驟(2.3)采用以下兩種方式之一選出最佳子分類器:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810046789.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種有機復合膨潤土的制備方法
- 下一篇:多功能旋轉開關試驗機





