[發明專利]一種基于多維關系對齊的無監督視覺表征學習的圖像分類方法有效
| 申請號: | 202110606700.5 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113344069B | 公開(公告)日: | 2023-01-24 |
| 發明(設計)人: | 李宏亮;程浩洋;鄧小玲;何書航 | 申請(專利權)人: | 成都快眼科技有限公司 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 徐靜 |
| 地址: | 610200 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多維 關系 對齊 監督 視覺 表征 學習 圖像 分類 方法 | ||
本發明提供一種基于多維關系對齊的無監督視覺表征學習的圖像分類方法,包括:步驟1,獲取預訓練圖像數據以及增廣視圖;步驟2,構建包括在線編碼器和離線編碼器的雙分支網絡,將增廣視圖分別輸入在線編碼器和離線編碼器得到特征以及負樣本;步驟3,定義增廣視圖的特征與負樣本的關系矩陣,并采用交叉對齊策略構建關系對齊損失;步驟4,設計多維關系對齊損失并進行無監督預訓練;步驟5,通過添加分類器構成圖像分類網絡;步驟6,微調圖像分類網絡;步驟7,利用微調后的圖像分類網絡執行圖像分類任務。本發明將關系對齊作為無監督視覺表征學習的核心,其在不引入任何不可靠約束的情況下,深入探索了樣本之間的相似度關系。
技術領域
本發明涉及圖像分類技術領域,具體而言,涉及一種基于多維關系對齊的無監督視覺表征學習的圖像分類方法。
背景技術
隨著深度學習在計算機視覺的普及,基于卷積神經網絡的圖像分類方法基本達到了人類水平的表現,但是訓練神經網絡需要龐大的數據,獲取數據的標記是耗時耗力的。無監督視覺表征學習是目前計算機視覺領域最具挑戰性的課題之一,其主要任務是根據給定的無人工標注的圖片,從數據本身學習,以獲得對下游任務有益的特征表示。在圖像分類任務中,最近無監督視覺表征學習展現出了驚人的應用前景,由于其不依賴人工標注,因此可以收集數量巨大的數據供其預訓練,來獲得具有語義信息的通用性特征,然后遷移到目標數據集以獲得更好的分類性能,這對于圖像分類的發展有非常重要的意義。
早期的無監督視覺表征學習方法通常會基于數據自身設計啟發式的輔助任務,然后借由解決輔助任務學習的過程學習通用的視覺特征表示。相對位置判別(RelativePosition)輔助任務,它首先從輸入圖像中提取幾個圖像補丁,然后訓練卷積神經網絡來預測任意兩個補丁之間的空間位置關系。旋轉預測(RotNet)輔助任務,它首先將輸入圖像旋轉0°、90°、180°、270°中的任意一個角度,然后訓練卷積神經網絡來預測圖像的旋轉角度。圖像著色(Colorization)輔助任務,它首先將原始圖像灰度化,然后訓練卷積神經網絡來對灰度圖像著色,將高級語義信息編碼到嵌入信息中。圖像修補(Inpainting)輔助任務,它首先將抹去輸入圖像的一個局部區域,然后利用一種上下文編碼器,根據像素之間的相關性來生成原始圖像的缺失內容。然而,這些手工設計的輔助任務通常只能捕捉圖像的底層特征,不能關注到圖像的語義信息上。除此之外,它們也很容易被一些無關特征所干擾,例如水印對于旋轉預測輔助任務,僅關注水印的位置就可以判斷圖像旋轉地角度。在可解釋性方面,它們也存在很大地問題。與這些基于啟發式輔助任務的方法相比,當下的對比學習體現出巨大的優勢和廣闊的前景。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都快眼科技有限公司,未經成都快眼科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110606700.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種LED洗墻燈
- 下一篇:坡道車輛控制方法、裝置、車輛及存儲介質





