[發明專利]一種基于跨類別遷移主動學習的圖像分類方法有效
| 申請號: | 201610021429.8 | 申請日: | 2016-01-13 |
| 公開(公告)號: | CN105701509B | 公開(公告)日: | 2019-03-12 |
| 發明(設計)人: | 丁貴廣;郭雨晨;李長青;孫鵬 | 申請(專利權)人: | 清華大學;北京恒冠網絡數據處理有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京八月瓜知識產權代理有限公司 11543 | 代理人: | 石友華 |
| 地址: | 100084 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 類別 遷移 主動 學習 圖像 分類 方法 | ||
本發明公開了一種基于跨類別遷移主動學習的圖像分類方法,包括如下步驟:對輔助類別數據與目標類別數據中的圖像進行向量化特征表示;構建輔助類別屬性表示和目標類別屬性表示;構造目標函數;優化求解目標函數,得到生成函數;利用生成函數及目標類別屬性表示得到分類模型;利用分類模型計算目標類別數據中所有無標注圖像的不確定性;選取不確定性最大的無標注圖像進行標注;對目標類別數據中圖像的權重進行更新,重新構造目標函數。本發明能夠有效地在目標類別數據中挑選最有信息量的圖像樣本進行標注,有助于在目標類別只有極少有標注數據的情況下訓練出準確的分類模型,降低標注成本。
技術領域
本發明涉及圖像分類領域,尤其涉及一種基于跨類別遷移主動學習的圖像分類方法。
背景技術
隨著互聯網上圖像數據的大規模增長,圖像分類技術受到廣泛的關注和應用。現有的圖像分類技術主要通過有監督學習的方法訓練出目標類別的分類模型,即需要為各個分類模型收集足量的、高質量的有標注數據進行模型訓練。這種方式適用與簡單的分類任務和類別比較少的場景。但是隨著分類任務的復雜化,比如類別數量多、類別專業化、特殊化等,為目標類別收集足量的有標注數據的成本大大上升。所以,如何盡可能地節省標注成本,用盡可能少的有標注數據來訓練出準確的分類模型,在學術界和工業界都是一個重要的研究課題。
為了減少數據的標注成本,有兩種常用的解決方案。第一種是主動學習(ActiveLearning)。主動學習的基本思想是:數據具有不同的信息量,如果學習算法能夠挑選出那些最具信息量的數據來進行標注,那么即使只有很少的數據被標注了,這些數據所擁有的信息也能保證學習出的分類模型足夠精確。另一種是遷移學習(Transfer Learning)。遷移學習的基本思想是:對于目標領域和任務,往往可以找到一些和它不同但是相關的輔助領域和任務,在輔助領域中擁有足量的有標注數據。即使只在目標領域中只有少量的數據,也能通過從輔助領域中遷移足量的知識來學習出準確的分類模型。當然,研究者們兩種方案結合在一起,即遷移主動學習(Transfer Active Learning),通過同時從輔助領域遷移知識和選擇最優信息量的數據進行標注,也取得了一些不錯的成果。但是,現有的遷移主動學習方法都有一個非常強的假設:目標領域和輔助領域所具有的數據的類別是完全一致的,只是數據在這些類別上的概率分布有差異。顯然,這個假設在實際應用中太過苛刻了。對于目標領域,如果它包含大量的類別,或者所包含的類別的特殊性很強,要構建出一個類別與之完全相同的輔助領域也是一個成本很高的過程,這樣違背了遷移主動學習的初衷。
從目前的研究來看,現有的遷移主動學習方法都只能處理目標領域和輔助領域的類別完全一模一樣的情況,針對二者完全不同的解決方案還沒有,但后者卻是實際應用中更常見的情況。所以,如何在目標領域與輔助領域的類別相關但是不同的情況下,有效地從輔助領域遷移有價值的信息、同時在目標領域選擇最有信息量的樣本進行標注,以盡可能在極低的標注成本下訓練足夠準確的分類模型,仍需要進一步的研究。
發明內容
本發明旨在提供一種基于跨類別遷移主動學習的圖像分類方法,以解決目前在目標領域與輔助領域的類別相關但是不同的情況下,有效地從輔助領域遷移有價值的信息、同時在目標領域選擇最有信息量的樣本進行標注,以盡可能在極低的標注成本下訓練足夠準確的分類模型的問題。
本發明的發明目的是通過下述技術方案來實現的:
一種基于跨類別遷移主動學習的圖像分類方法,包括如下步驟:
步驟S1:利用特征抽取工具分別對輔助類別數據中的圖像與目標類別數據中的有標注圖像和無標注圖像進行向量化特征表示,得到輔助類別圖像特征向量和目標類別圖像特征向量;
步驟S2:分別針對輔助類別數據和目標類別數據構建出輔助類別屬性表示和目標類別屬性表示;
步驟S3:利用步驟S1中得到的輔助類別圖像特征向量和目標類別圖像特征向量,以及步驟S2中得到的輔助類別屬性表示和目標類別屬性表示構造目標函數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學;北京恒冠網絡數據處理有限公司,未經清華大學;北京恒冠網絡數據處理有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610021429.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用二維碼連接紙媒與圖文音視頻的使用方法
- 下一篇:地溝清潔機構





