[發明專利]一種基于自調制字典學習的圖像分類方法有效
| 申請號: | 201310091623.X | 申請日: | 2013-03-20 |
| 公開(公告)號: | CN103116762A | 公開(公告)日: | 2013-05-22 |
| 發明(設計)人: | 楊育彬;唐曄;潘玲燕 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華 |
| 地址: | 210000 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 調制 字典 學習 圖像 分類 方法 | ||
技術領域
本發明屬于圖像分類領域,特別是一種面向多類別、高精度圖像分類方法。
背景技術
在當前的信息化社會中,以圖像為代表的數字媒體資源已達到海量規模,成為當前信息處理和信息資源建設的主體。傳統的技術手段已經無法適應這種需求,這對圖像的組織、分析、檢索和管理等技術都提出了全新的挑戰。圖像分類作為對圖像的機器理解的基礎技術,近些年來一直是模式識別、計算機視覺、信息檢索、人工智能、機器學習和數據挖掘等多個重要研究領域中持續的前沿性研究熱點。圖像分類是指根據圖像的內容將其歸為特定的語義類別的方法,其能自動提取圖像的語義信息并有效管理。圖像語義分類技術可直接應用到海量圖像檢索、圖像語義標注、圖像信息過濾等圖像語義理解相關的其他技術領域,并帶動上述領域相關技術的發展。盡管國內外許多研究者投身于圖像分類技術的研究,目前的圖像分類還面臨多種挑戰。比如:怎樣自動獲得豐富的高層語義信息;如何魯棒地處理光照、位置、遮擋以及噪聲數據的情形;如何高效處理大規模圖像數據等等。近些年,基于字典學習的圖像分類框架獲得眾多研究者的關注,大量實驗分析表明了其優越性。此框架的關鍵在于設計高效算法學習更有效的字典,并充分利用字典中的信息用于分類。因此,此發明旨在改進已有字典學習模型,引入學習順序機制控制字典學習,使學習過程從簡單到復雜逐漸演化,最終形成更適用于分類任務的字典,以提升基于字典學習的圖像分類方法的分類精度。
發明內容
發明目的:本發明為了解決現有技術中的問題,提出了一種基于自調制字典學習的圖像分類方法,從而提升了已有基于字典學習的圖像分類方法的分類精度。
發明內容:本發明公開了基于自調制字典學習的圖像分類方法,包含如下步驟:
訓練階段:步驟1,局部特征抽取:對于訓練圖像集中的每一幅訓練圖像進行局部特征描述子抽取生成訓練圖像集的局部特征集合;訓練圖像是帶有類標的圖像,類標用于標記圖像所屬類別;采用稠密抽樣的策略,通過16像素×16像素網格劃分采樣,在每個采樣點抽取128維灰度SIFT描述子,最后將抽取的局部特征集合的一個子集作為字典學習的訓練集;
步驟2,自調制字典學習:在局部特征集合中隨機抽取部分局部特征作為訓練集,訓練集分為簡單樣例集E和復雜樣例集H;反復迭代:當前簡單樣例集確定、稀疏編碼、字典更新、以及閾值更新四個步驟完成字典學習,生成字典D。
整個學習過程維護兩個訓練樣例集合:簡單樣例集E和復雜樣例集H;通過迭代以下步驟完成字典學習:確定當前簡單樣例集,即從復雜樣例集H中挑選此次迭代被判定為簡單的樣例,加入到上一次迭代的簡單樣例集,形成當前簡單樣例集;稀疏編碼,固定上一次迭代的字典,并利用其對訓練集中的所有局部特征完成稀疏編碼;字典更新,僅利用此次迭代的簡單樣例集中的局部特征編碼系數對字典進行更新閾值更新,采用逐漸放松簡單樣例篩選標準的自適應閾值函數,利用當前訓練集上的打分函數值分布,合理更新閾值。不斷進行以上四步的迭代優化,直接字典最終收斂,或是達到預先規定的迭代次數,最終獲得訓練好的字典。
步驟3,訓練圖像表示:包含特征稀疏編碼和圖像空間聚合兩個子步驟。
特征稀疏編碼,對訓練圖像中抽取的局部特征進行編碼,采用下式根據字典D,對局部特征xi求解稀疏編碼系數αi:
其中D表示字典,αi表示局部特征xi對應于字典D的編碼系數,λ是正則化參數,其取值為(0,+∞),采用快速特征符搜索法求解;圖像空間聚合,對于訓練圖像的所有局部特征的編碼結果進行空間聚合操作,以形成整張圖像的特征向量,采用分層分塊的金字塔空間劃分,對于每一塊進行最大值聚合操作。總共將圖像空間分為三層:level0、level1、level2。level0不分塊,表示整張圖像的信息,level1按圖像平面空間橫軸與縱軸方向均分為4塊,level2把level1的每塊再按圖像平面空間橫軸與縱軸方向均分為4小塊,構成16小塊,共有21塊;最后將所有分塊的特征向量串接成整個圖像的特征向量,假設獲得的碼書含K個視覺單詞,K取正整數,則圖像的特征向量維度為21×K。若用α∈RK表示特征編碼結果,ym表示空間上屬于第m塊的特征,m取值為0到20的整數,則最大值聚合的操作定義為:for?j=1,...K.,其中hm,j表示第m塊空間聚合操作的結果向量在第j個維度的分量值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310091623.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分子篩制氧機的節能控制系統
- 下一篇:定向光輸出裝置





