[發明專利]基于短語包模型的圖像類別標注方法有效
| 申請號: | 201010195097.8 | 申請日: | 2010-05-31 |
| 公開(公告)號: | CN101894264A | 公開(公告)日: | 2010-11-24 |
| 發明(設計)人: | 肖柏華;張琳波;王春恒;惠康華;邵允學;蔡新元 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 梁愛榮 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 短語 模型 圖像 類別 標注 方法 | ||
技術領域
本發明屬于模式識別與信息處理技術領域,涉及基于短語包模型的圖像類別標注方法,具體的是一種圖像分類方法。
背景技術
由于數碼相機等數碼產品的低廉價格,圖片、視頻數據可以很方便的拍攝并保存成方便計算機處理的電子形式。同時,互聯網資源的迅猛發展,使得廣大用戶開始面臨一個龐大的數據資源。單純的利用人力來維護和組織這些數據已經變得不現實。因此,開發一種技術來完成圖像、視頻數據的自動標注,成了一個熱點問題。
總的來說,如何合理的表示圖像比后來用于對這些表示進行分類的分類技術更為重要。道理可以通過一個例子來說:兩幅不同類別的圖像,由于表示策略不好,被表示成了相同的向量;此時,即使使用一個萬能的分類器對這種情況也是無能為力的。因此,圖像內容表示,是圖像類別標注技術中核心的問題之一。
最初,人們更喜歡使用從整幅圖像抽取的全局特征來表示圖像。但是這種全局特征在表示圖像方面遇到很多問題,比如它對目標輕微的遮擋以及復雜背景的混淆缺乏魯棒性。另一方面,基于局部圖像塊的方法,卻受到了越來越多的關注。人體生理學家發現,人類視覺早期分為“留意前”階段(pre-attentive?stage)和“留意”階段(attentive?stage)。在“留意前”階段,一些比較特別的局部特征開始捕獲人的注意力;然后,在“留意”階段,人類視覺器官開始注意這些局部特征之間的關系。在這種思想的影響下,圖像內容分類取得了重大進展。
對應著“留意前”階段,大量的局部特征檢測子和局部特征描述子被提出,用來捕獲圖像中比較特別的局部特征。例如,目前的檢測子有:角點檢測子、區域檢測子、水滴狀形狀檢測子,邊緣檢測子等等。而為了對這些檢測到的區域進行向量化描述,研究者又提出了大量局部特征描述子,包括:基于濾波的描述方法、基于統計的描述方法,基于邊緣的描述方法以及基于矩的描述方法等等。這些方法各有優缺點,被廣泛的應用于局部特征的提取過程之中。
得到上面提到的局部特征以后,如何組織這些特征以利于分類開始提上日程,也即,對應著人類視覺中的“留意”階段。為了有效地組織這些局部特征,大量的組織模型在過去的幾年被先后提出??偟膩碚f,這些模型大致可以分為一下幾個大類:字包(bag-of-words)模型、部分-全局(part-structure)模型、輪廓片段相關的模型、語義場景相關的模型、生物感知相關的模型等等。在這些模型當中,字包模型以其計算簡單,性能魯棒等優點,在過去的幾年取得了很大的成功。
字包模型首先被應用于文本分類領域,它的主要思想是:建立一個碼本,碼本中包含對分類具有判別性的字;然后統計碼本中的每個字在當前文本中出現的次數,形成一個出現次數直方圖向量。然后這個向量被用作文本的表示向量,輸入分類器進行分類。
然后,這種思想被引入計算機視覺。其中的文本與字分別對應著計算機視覺領域的圖像和局部特征(又稱視覺字),碼本在計算機視覺領域也成為碼本,只是它是由一系列具有代表性的局部特征/視覺字構成;相應的,圖像被表示成了碼本中的局部特征在圖像中出現次數形成的直方圖向量。這些向量可以代表圖像直接被輸入分類器進行分類。
但是,正如眾多研究者指出的那樣,字包模型把圖像中重要的位置信息丟掉了。為了引入部分位置信息,有的研究者提出把原圖像分塊,然后在每個塊內分別建立直方圖的方式。但是,隨著分塊的增多,分類結果對目標在圖像中的位置變得越來越敏感,使得字包模型對目標在圖像中位置魯棒的優點消失殆盡。
發明內容
為了解決現有字包模型存在的問題,本發明目的是在不影響現有的字包模型魯棒性的同時引入局部特征點之間的結構位置信息,提高圖像表示的質量,進而提高自動標注系統的性能,為此本發明提供一種基于短語包模型的圖像類別標注方法。
為了達到所述目的,本發明提供一種基于短語包模型的圖像類別標注方法,該圖像類別標注方法,通過分析字包模型中視覺字之間的位置關系,將視覺字發展為視覺短語,進而提出基于短語包模型的圖像內容表示,然后利用短語包模型的表示結果訓練分類器以及輸入分類器進行類別標注。
其中,所述基于短語包模型的圖像內容表示包括步驟如下:
步驟S1:對任意圖像Ii,利用局部特征點檢測子,得到圖像中所有的局部特征點Pi={pij},j=1,2,...,Ni,其中Ni為在圖像Ii中檢測到的所有局部特征點的個數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010195097.8/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





