[發明專利]面向大規模訓練數據的SVM主動學習分類算法在審
| 申請號: | 201410665206.6 | 申請日: | 2014-11-20 |
| 公開(公告)號: | CN104331716A | 公開(公告)日: | 2015-02-04 |
| 發明(設計)人: | 劉福江;林偉華;徐戰亞;郭艷;黃彩春;郭振輝 | 申請(專利權)人: | 武漢圖歌信息技術有限責任公司 |
| 主分類號: | G06K9/66 | 分類號: | G06K9/66 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 劉焓 |
| 地址: | 430074 湖北省武漢市*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 大規模 訓練 數據 svm 主動 學習 分類 算法 | ||
技術領域
本發明涉及遙感分類與圖像形象信息處理技術的交叉領域,尤其涉及面向大規模訓練數據的SVM主動學習分類算法。
背景技術
遙感影像客觀真實地記錄和反映了地表物體的電磁輻射的強弱信息,是遙感探測地物信息的一種表現形式。利用遙感影像進行地物分類在城市監測、農業監測、土壤調查及林業監測等領域都有重要的應用。現有遙感影像地物分類方法主要集中在利用遙感影像像素的波譜信息(或者輔以紋理等空間信息),采用距離、角度、概率等聚類準則或支持向量機、神經網絡等方法實現分類。在構筑一個遙感影像監督分類系統時,為了訓練分類模型,需要采集樣本數據作為分類系統的訓練數據。訓練數據是影響遙感影像監督分類系統分類精度的一個重要因素(張華,2012)。隨著遙感信息科技的發展,遙感信息數據日漸呈現出高維和海量的特點,如何從這些大規模遙感數據中采集分類系統的訓練數據成了遙感影像地物分類方法需要研究的問題(宮鵬,2009)。
傳統的遙感影像地物分類系統往往采用人工標注方法來采集訓練數據,這種方法耗時耗力、成本高昂,并且人工判讀比較困難。因此,在全球或大規模遙感影像處理過程中要求自動化建立訓練數據樣本庫。多年來,國內外學者一直在探求能夠自動地、高效地實現遙感影像解譯方法。目前討論比較廣泛的是將遙感領域知識引入到機器學習過程中,亦即將專家目視解譯時用到的知識加入到計算機自動解譯過程中進行綜合分類,提高整個過程的智能化程度。例如美國馬里蘭大學John?Townshend?教授和Chengquan?Huang?的團隊所研究的全球森林覆蓋變化檢測(Global?Forest?Cover?Change)項目,將地物光譜知識引入到計算機解譯算法,研究出了訓練樣本的自動獲取算法。采用該算法,在一景LandsatETM+影像上自動產生的森林-非森林樣本的數目達到近“千萬個”(C.Huang?2008,2009;J.?R.?Townshend?2012;J.?O.?Sexton?2013)。
目前在大訓練樣本集中進行樣本選擇通常采用的是簡單的分層等距離抽樣方法,但是由于不采用數據的任何信息,這種方法帶有盲目性。一個好的訓練樣本的選擇是一個試錯的工程,而試錯工程是一個迭代的過程,要反復經過樣本選擇、執行分類、評價結果和更新樣本集四個步驟,直到達到滿意的結果,是一個非常耗時的過程。因此,需要引入機器學習領域中樣本選擇優化的方法,解決遙感大訓練樣本集中樣本選擇的自動優化問題。
發明內容
為了克服上述不足之處,本發明提出面向大規模訓練數據的SVM主動學習分類算法,該方法綜合機器學習領域的樣本優化選擇方法,分析不同訓練樣本對分類的影響,采用聚類方法和主動學習中的基于不確定性采樣策略選取邊界樣本,研究遙感影像分類器在邊界訓練樣本情況下的優化算法,提高分類精度和工作的效率。
本發明解決上述技術問題所采用的技術方案是:面向大規模訓練數據的SVM主動學習分類算法,其不同在于,首先從海量機器標記樣本中使用聚類方法分別選取出初始壓縮集和訓練樣本集;然后使用初始壓縮集訓練好的SVM分類器對訓練樣本子集進行分類,統計分類精度,與機器標記對比,從中選出誤分樣本;根據分類模型F,對誤分樣本集合的每一個樣本的類別進行預測,選擇最優標號概率和次優標號概率之差值最小的一部分樣本作為邊界樣本,并加入到初始壓縮集中重新訓練SVM分類器,迭代使用訓練樣本集優化分類器,計算最后三次對訓練樣本集迭代分類的分類精度平均值和方差,<且→0,則停止迭代,輸出優化的SVM分類器;否則,持續進行迭代。
優選的,其方法包括以下步驟:步驟1)、對原始機器標記樣本使用基于近鄰規則的聚類分析方法進行分析,得到每類樣本的聚類中心,按照類別分別抽取聚類子集的聚類中心,以聚類中心作為初始壓縮集A;
步驟2)、計算各聚類質心的聚類半徑r、聚類離散度以及各樣本到所屬聚類質心的距離d,設聚類內離散度閾值門限為T,若,則選取的樣本組成訓練樣本集B,并將B隨機均分為n個大小相同的子集{b1,b2,b3,b4,b5……bn};
步驟3)、采用初始壓縮集A訓練SVM分類器,得到初次分類模型F;
步驟4)、使用初次分類模型F對訓練樣本子集分類;
步驟5)、評價本次分類的分類精度,并從b1集合中提取出誤分樣本,形成誤分樣本集合;
步驟6)、根據分類模型F,對誤分樣本集合的每一個樣本的類別進行預測,得到其屬于各個可能的類別的概率p(yi|x),計算樣本最優標號的概率與次優標號的概率之差,選擇兩者差值最小的部分樣本加入到邊界樣本集G;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢圖歌信息技術有限責任公司,未經武漢圖歌信息技術有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410665206.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:進出室系統
- 下一篇:一種具有噪聲魯棒性的人臉表情識別方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





