[發(fā)明專利]一種基于多網(wǎng)絡(luò)框架的對比自監(jiān)督學(xué)習(xí)方法有效
| 申請?zhí)枺?/td> | 202210450752.2 | 申請日: | 2022-04-27 |
| 公開(公告)號: | CN114565799B | 公開(公告)日: | 2022-07-08 |
| 發(fā)明(設(shè)計)人: | 龍顯忠;張智猗 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/74;G06V10/774;G06V10/82;G06K9/62;G06N3/08 |
| 代理公司: | 南京正聯(lián)知識產(chǎn)權(quán)代理有限公司 32243 | 代理人: | 張玉紅 |
| 地址: | 210023 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 網(wǎng)絡(luò) 框架 對比 監(jiān)督 學(xué)習(xí)方法 | ||
本發(fā)明公開了一種基于多網(wǎng)絡(luò)框架的對比自監(jiān)督學(xué)習(xí)方法,包括步驟為:對訓(xùn)練集中的每張圖像都應(yīng)用數(shù)據(jù)增廣手段得到三個獨立的增廣視圖;將三個增廣視圖分別輸入到設(shè)計好的反向傳播網(wǎng)絡(luò)、停止梯度網(wǎng)絡(luò)和動量網(wǎng)絡(luò)中;結(jié)合負(fù)樣本隊列分別計算反向傳播網(wǎng)絡(luò)與停止梯度網(wǎng)絡(luò)、反向傳播網(wǎng)絡(luò)與動量網(wǎng)絡(luò)之間輸出向量的損失值,相加后得到總損失值;通過最小化總損失值對反向傳播網(wǎng)絡(luò)的參數(shù)進(jìn)行梯度更新;利用反向傳播網(wǎng)絡(luò)的參數(shù)對停止梯度網(wǎng)絡(luò)和動量網(wǎng)絡(luò)進(jìn)行參數(shù)更新;用動量網(wǎng)絡(luò)更新負(fù)樣本隊列。本發(fā)明是在經(jīng)典的自監(jiān)督學(xué)習(xí)方法的基礎(chǔ)上,通過使用多網(wǎng)絡(luò)框架引入更多正樣本對,同時結(jié)合端到端和動量機制引入更多的負(fù)樣本,達(dá)到更好的預(yù)訓(xùn)練效果。
技術(shù)領(lǐng)域
本發(fā)明涉及自監(jiān)督視覺表征學(xué)習(xí)領(lǐng)域,尤其是涉及了一種基于多網(wǎng)絡(luò)框架的對比自監(jiān)督學(xué)習(xí)方法。
背景技術(shù)
近年來,隨著互聯(lián)網(wǎng)的快速發(fā)展和多媒體技術(shù)的日益成熟,社會的數(shù)字化和信息化程度正在不斷提高,特別是大數(shù)據(jù)時代的到來,使得數(shù)字信息資源處于井噴式增長階段。而隨著智能手機、平板等智能移動終端的普及,數(shù)字圖像已成為人們?nèi)粘I钪胁豢苫蛉钡慕M成部分,它在社交、購物、學(xué)習(xí)等方面都起到了非常重要作用。現(xiàn)如今互聯(lián)網(wǎng)上每天都會有大量的數(shù)字圖像被上傳和共享,圖像數(shù)據(jù)資源已經(jīng)呈現(xiàn)出爆炸式增長的趨勢。如何對這些海量圖像資源進(jìn)行及時有效地分類和檢索已成為一個重要的研究課題。
自2012年的ImageNet圖像識別比賽上,AlexNet方法以優(yōu)于第二名10個百分點的絕對優(yōu)勢獲勝,至此深度學(xué)習(xí)進(jìn)入爆發(fā)式發(fā)展階段,在計算機視覺特別是圖像分類領(lǐng)域中有著越來越廣泛和重要的應(yīng)用。
盡管深度學(xué)習(xí)方法在計算機視覺任務(wù)中取得了優(yōu)異的成績,但仍存在一個問題:深度神經(jīng)網(wǎng)絡(luò)的性能嚴(yán)重依賴于大量的標(biāo)記數(shù)據(jù)。例如ImageNet作為使用最廣泛的監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)集之一,包含1000個類別的大約130萬個標(biāo)記圖像,可以訓(xùn)練出性能強大的網(wǎng)絡(luò),能夠廣泛應(yīng)用于圖像分類、目標(biāo)檢測或語義分割等各種任務(wù)中。然而在許多現(xiàn)實問題中,收集大量的標(biāo)記數(shù)據(jù)成本是非常昂貴的。
解決這一問題的一種方法就是使用自監(jiān)督學(xué)習(xí)。自監(jiān)督學(xué)習(xí)(Self-SupervisedLearning, SSL)作為機器學(xué)習(xí)中一種新的無監(jiān)督表示學(xué)習(xí)方法,近幾年受到了廣泛的關(guān)注。自監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的視覺數(shù)據(jù)中學(xué)習(xí)良好的表示,減少甚至消除昂貴的手工標(biāo)簽收集的需要。在深度網(wǎng)絡(luò)環(huán)境中,自監(jiān)督學(xué)習(xí)最常見的用途是用未標(biāo)記的數(shù)據(jù)對網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,然后將學(xué)習(xí)到的知識遷移到下游任務(wù)。自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練效果越好,在下游任務(wù)的表現(xiàn)也就越好。近年來,隨著新的自監(jiān)督方法的不斷提出,它們的性能越來越接近ImageNet上的監(jiān)督預(yù)訓(xùn)練。雖然目前利用這些方法并不常見,但隨著自監(jiān)督學(xué)習(xí)的不斷發(fā)展,未來很有可能會廣泛應(yīng)用到計算機視覺的各個領(lǐng)域中。
早期的自監(jiān)督學(xué)習(xí)方法通過執(zhí)行預(yù)置任務(wù)來訓(xùn)練網(wǎng)絡(luò),預(yù)置任務(wù)是根據(jù)數(shù)據(jù)中找到的屬性自動生成偽標(biāo)簽。代表性的預(yù)置任務(wù)有:圖像補繪、著色、拼圖、旋轉(zhuǎn)等。從預(yù)置任務(wù)學(xué)習(xí)到的網(wǎng)絡(luò)可以用于任何下游任務(wù),如分類、分割、檢測等。然而,預(yù)置任務(wù)的設(shè)計依賴于啟發(fā)式,這可能會限制學(xué)習(xí)表征的可泛化性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210450752.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





