[發明專利]一種基于預訓練標注數據不可知的圖像分類自動標注方法有效
| 申請號: | 202110318366.3 | 申請日: | 2021-03-25 |
| 公開(公告)號: | CN113191385B | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 鐘昊文;陳岱淵;單海軍;楊非;傅家慶;俞再亮 | 申請(專利權)人: | 之江實驗室 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06V10/762;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州浙科專利事務所(普通合伙) 33213 | 代理人: | 楊小凡 |
| 地址: | 310023 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 訓練 標注 數據 不可知 圖像 分類 自動 方法 | ||
本發明公開了一種基于預訓練標注數據不可知的圖像分類自動標注方法,包括如下步驟:S1,獲取待標注圖像,收集預訓練圖像分類模型;S2,將預訓練圖像分類模型拆分成特征提取模型與標簽預測模型,并初始化,固定標簽預測模型參數,不參與后續遷移訓練;S3,約束特征提取模型,使自動標注模型的輸出具體類別確定,整體分布離散;S4,對特征提取模型輸出特征進行聚類;S5,篩選出大小超過閾值的聚類簇,所對應的類別組成為待標注圖像標簽空間;S6,給所有待標注圖像打上偽標簽;S7,重新聚類并分配偽標簽,對特征提取模型進行有監督訓練;S8,迭代S3至S7;S9,使用遷移后的自動標注模型對待標注圖像進行推理,得到標注結果。
技術領域
本發明涉及深度學習和計算機視覺領域,尤其是涉及一種基于預訓練標注數據不可知的圖像分類自動標注方法。
背景技術
隨著深度學習和計算機視覺研究的飛速發展,其有關應用已經影響了我們生活的方方面面。作為計算機視覺領域的一個典型任務---圖像分類,其方法已被廣泛應用在人臉識別、自動駕駛和場景識別等任務中。但訓練一個好的圖像分類模型依賴于大量的標注數據,利用人工標注圖像往往會耗費大量的人力和時間成本。因此,如何進行高效的圖像標注受到了越來越多的關注,自動標注可以有效地緩解上述問題。
現有的自動標注方法往往需要將待標注數據與預訓練數據混合進行半監督訓練。但是這樣的方法存在兩個問題:1、預訓練數據與待標注數據可能存在較大分布差異,模型泛化性能難以保證;2、預訓練數據集占用空間很大,如圖像分類中的ImageNet數據集大小有140G。存儲和傳輸均不方便,訓練時間過長也降低了自動標注的效率。與之相對的,在ImageNet數據集上訓練好的ResNet50模型大小僅有90M。因此,在預訓練標注數據不可知的情況下,充分利用已訓練好的模型參數可以極大提高自動標注效率。
發明內容
為解決現有技術的不足,通過自動化標注的手段,實現降低人工標注成本,提高圖像分類任務標注的效率,提升自動標注現實應用價值的目的,本發明采用如下的技術方案:
一種基于預訓練標注數據不可知的圖像分類自動標注方法,包括如下步驟:
S1,獲取待標注圖像,離線收集預先訓練的圖像分類任務相對應的圖像分類模型;
S2,將預訓練圖像分類模型拆分成特征提取模型與標簽預測模型,并用預訓練圖像分類模型初始化拆分遷移后的自動標注模型,進一步固定標簽預測模型參數,不參與后續遷移訓練;
S3,使用信息最大化損失約束自動標注模型的特征提取模型,使自動標注模型的輸出具體類別確定,整體分布離散;
S4,通過加權聚類方法,對自動標注模型的特征提取模型輸出特征進行聚類;
S5,根據所獲得聚類簇大小,使用大津法自適應的獲取聚類簇大小的閾值,篩選出大小超過閾值的聚類簇,所對應的類別組成為待標注圖像標簽空間排除預訓練模型中無關類別的影響;
S6,計算所有待標注圖像與每個共有類別的距離,并據此給所有待標注圖像打上偽標簽;
S7,使用自監督方法對待標注圖像重新聚類,根據重新聚類后的聚類中心分配偽標簽,并對特征提取模型進行有監督訓練;
S8,迭代進行S3至S7對圖像自動標注模型進行訓練;
S9,使用遷移后的自動標注模型對待標注圖像進行推理,得到標注結果。
進一步地,所述步驟S1中獲取待標注圖像Xi(i=1,2...N),數量為N;獲得預先訓練的圖像分類模型M,M對應的標簽空間C包含K個類別,有k=1,2...K。
進一步地,所述步驟S2包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室,未經之江實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110318366.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





