[發(fā)明專利]一種結(jié)合不同大小視覺詞匯本的圖像分類方法有效
| 申請?zhí)枺?/td> | 201210007079.1 | 申請日: | 2012-01-11 |
| 公開(公告)號: | CN102609731A | 公開(公告)日: | 2012-07-25 |
| 發(fā)明(設(shè)計)人: | 羅會蘭;廖列法;胡中棟 | 申請(專利權(quán))人: | 江西理工大學(xué) |
| 主分類號: | G06K9/66 | 分類號: | G06K9/66 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 341000 江*** | 國省代碼: | 江西;36 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)合 不同 大小 視覺 詞匯 圖像 分類 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于模式識別、計算機視覺、圖像理解技術(shù)領(lǐng)域,具體涉及一種圖像分類方法。
背景技術(shù)
圖像分類的困難在于需要建立一個即能容納類內(nèi)的高度變化,又要能區(qū)分不同類的類模型。“Constellation”模型試圖定位不同的物體局部并確定它們在空間上的關(guān)系。盡管這些方法可能表示能力強,但是這種空間約束模型無法處理或識別大的變形,比如不在一個平面內(nèi)的旋轉(zhuǎn)和遮擋,也沒有考慮局部數(shù)目不確定的物體,比如建筑物和樹。許多用于圖像分類的流行方法使用獨立塊的集合來表示圖像,這些獨立塊由局部視覺描述子描述,其中最典型的是“bag-of-words”模型。它確定每類中特定的局部比例,而忽略局部間的空間關(guān)系。在檢測到圖像的興趣點(獨立塊)且用描述子描述興趣點(也就是特征表示)后,必須為訓(xùn)練和測試圖像表示它們的分布。一種流行的表示方法,也稱為圖像量化方法,是通過對描述后的興趣點集進行聚類得到一個視覺詞匯本。然后圖像表示成視覺單詞標(biāo)簽的直方圖。但是幾乎所有流行的聚類算法都需要用戶輸入簇個數(shù)。為了提供這個參數(shù),用戶必需要有一些圖像的先驗知識或者通過許多的驗證實驗來選擇一個合適的參數(shù)。最近,許多基于“bag-of-words”模型的方法致力于融合多種特征來得到性能提升。計算機視覺領(lǐng)域中流行的結(jié)合多個特征的趨勢是使用多核學(xué)習(xí)方法(Multiple?Kernel?Learning,MKL)。從時間復(fù)雜性角度來說,MKL方法不能并行學(xué)習(xí)多個特征。
本發(fā)明試圖將集成學(xué)習(xí)技術(shù)的優(yōu)勢應(yīng)用到圖像分類中,集成學(xué)習(xí)的思想是應(yīng)用多個學(xué)習(xí)器并結(jié)合他們的預(yù)測。圖像分類對于傳統(tǒng)的機器學(xué)習(xí)算法是非常困難的,因為描述圖像的矢量的維度非常高。為了利用來自于不同信息綜合層的線索來分類圖像,不同大小的視覺詞匯本成員用來構(gòu)成視覺詞匯本集體。當(dāng)應(yīng)用基于視覺詞匯本集體上學(xué)習(xí)得到的分類器集體來分類新的圖像時,可以得到性能的提升。而且,從時間復(fù)雜性角度來說,本發(fā)明可以并行學(xué)習(xí)成員視覺詞匯本和相應(yīng)的成員分類器,具有很好的并行性和可縮放性。
本項發(fā)明的主要貢獻在于提出了一種結(jié)合不同大小視覺詞匯本的圖像分類方法。本發(fā)明能有效減少圖像分類的監(jiān)督程度,綜合利用多種有效信息,并行學(xué)習(xí)物體模型,有效提高圖像分類的效率和準(zhǔn)確度。
發(fā)明內(nèi)容
為了解決圖像分類不能有效融合多種信息和由于描述圖像的矢量的高維度,傳統(tǒng)的機器學(xué)習(xí)方法趨向于產(chǎn)生非常不穩(wěn)定且泛化能力差的模型的問題,本發(fā)明提供了一種結(jié)合不同大小視覺詞匯本的圖像分類方法。
本發(fā)明將集成學(xué)習(xí)的優(yōu)勢應(yīng)用到圖像分類中,不同綜合層次的特征用來形成視覺詞匯本集體。基于視覺詞匯本集體上,同一副圖像能得到不同的量化矢量。所以,一個分類器集體能在同一訓(xùn)練圖像集的不同表達矢量集上學(xué)習(xí)得到。既然每個成員利用一種圖像信息,當(dāng)用這個分類器集體來分類新的圖像時,可以得到意想不到的滿意結(jié)果。集成方法通過結(jié)合多個模型的預(yù)測來提高現(xiàn)存算法的性能。
與分類器集體相似,使用視覺詞匯本集體來提高視覺詞匯本的質(zhì)量和魯棒性。詞匯本一般是用標(biāo)準(zhǔn)的聚類算法從訓(xùn)練圖像集中學(xué)習(xí)得到,所以使用詞匯本集體也可以達到提高聚類算法質(zhì)量的目的。視覺詞匯本集體用來表達不同類型的圖像信息。在構(gòu)建了一個差異性視覺詞匯本集體后,就可以得到高差異性的分類器集體,其中的每個成員分類器分別根據(jù)不同的圖像特征來建立物體模型。所以使用此分類器集體去分類新的圖像時,可以得到更好的、更魯棒的結(jié)果。高差異性的集體對于減少建立一個準(zhǔn)確模型所需要的監(jiān)督程度也非常有效。?
本發(fā)明直接使用多分辨率信息來量化圖像,并行使用來自于不同綜合層的多種可用線索分類圖像。為了利用不同粒度的信息來分類物體,圖像在基于不同大小的視覺詞匯本上量化,這些不同大小的視覺詞匯本可以捕獲不同粒度的圖像特征。然后基于不同大小的視覺詞匯本,訓(xùn)練圖像集得到不同的量化矢量集,從而可以學(xué)習(xí)到不同的分類器,每種分類器根據(jù)圖像不同粒度的信息得到物體不同的模型,集成這些分類器模型來分類新的圖像,包括以下步驟:
步驟1.?用興趣點檢測子提取訓(xùn)練圖像的興趣點,然后用描述子描述提取出來的興趣點;
步驟2.?隨機選擇一部分描述好的興趣點,在其上運行聚類算法得到一個成員視覺詞匯本,通過設(shè)置不同的簇個數(shù)作為聚類算法的參數(shù),得到具有不同大小的成員視覺詞匯本;
步驟3.?基于這個成員視覺詞匯本對訓(xùn)練圖像集進行量化;
步驟4.?在量化后的訓(xùn)練數(shù)據(jù)集上學(xué)習(xí)一個分類器;
步驟5.?重復(fù)步驟2到步驟4,生成預(yù)設(shè)大小的視覺詞匯本集體和分類器集體;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江西理工大學(xué),未經(jīng)江西理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210007079.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





