[發(fā)明專(zhuān)利]一種基于最大二乘損失的無(wú)監(jiān)督域適應(yīng)語(yǔ)義分割方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910353614.0 | 申請(qǐng)日: | 2019-04-29 |
| 公開(kāi)(公告)號(hào): | CN110222690B | 公開(kāi)(公告)日: | 2021-08-10 |
| 發(fā)明(設(shè)計(jì))人: | 陳銘浩;蔡登;薛弘揚(yáng) | 申請(qǐng)(專(zhuān)利權(quán))人: | 浙江大學(xué) |
| 主分類(lèi)號(hào): | G06K9/34 | 分類(lèi)號(hào): | G06K9/34;G06K9/62 |
| 代理公司: | 杭州天勤知識(shí)產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310013 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 大二 損失 監(jiān)督 適應(yīng) 語(yǔ)義 分割 方法 | ||
本發(fā)明公開(kāi)了一種基于最大二乘損失的無(wú)監(jiān)督域適應(yīng)語(yǔ)義分割方法,包括:(1)在源域上預(yù)訓(xùn)練語(yǔ)義分割模型,所述語(yǔ)義分割模型基于ResNet網(wǎng)絡(luò);(2)同時(shí)提取語(yǔ)義分割模型中第四層的特征,加入一個(gè)額外的分類(lèi)網(wǎng)絡(luò),對(duì)該網(wǎng)絡(luò)分支進(jìn)行同樣的預(yù)訓(xùn)練;(3)在源域上有監(jiān)督地訓(xùn)練語(yǔ)義分割模型,同時(shí)在目標(biāo)域上使用最大二乘損失無(wú)監(jiān)督地訓(xùn)練語(yǔ)義分割模型;(4)在目標(biāo)域,使用ResNet網(wǎng)絡(luò)最后一層的輸出作為偽標(biāo)簽,無(wú)監(jiān)督地訓(xùn)練第四層特征;(5)模型訓(xùn)練完畢,在目標(biāo)域上對(duì)圖片輸出它的語(yǔ)義分割圖。利用本發(fā)明,使無(wú)監(jiān)督域適應(yīng)的語(yǔ)義分割效果中,能夠?qū)﹄y訓(xùn)練樣本和小物體類(lèi)別得到更多的訓(xùn)練,提高最后目標(biāo)域上的語(yǔ)義分割質(zhì)量。
技術(shù)領(lǐng)域
本發(fā)明屬于無(wú)監(jiān)督域適應(yīng)的語(yǔ)義分割領(lǐng)域,尤其是涉及一種基于最大二乘損失的無(wú)監(jiān)督域適應(yīng)語(yǔ)義分割方法。
背景技術(shù)
在過(guò)去的十幾年中,深度學(xué)習(xí)在語(yǔ)義分割任務(wù)中取得了巨大成功。隨著大量公開(kāi)可利用的網(wǎng)上語(yǔ)義分割模型,語(yǔ)義分割受到了廣泛來(lái)自工業(yè)界和學(xué)術(shù)界研究者的關(guān)注。例如無(wú)人駕駛系統(tǒng)中就需要語(yǔ)義分割技術(shù)來(lái)識(shí)別信號(hào)燈,以及幫助識(shí)別障礙物。對(duì)于當(dāng)前用于深度網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集,例如PASCAL VOC-2012和Cityscapes數(shù)據(jù)集,研究人員已經(jīng)在當(dāng)前數(shù)據(jù)集上的深層模型的表現(xiàn)方面取得了顯著進(jìn)展。然而,這些具有逐像素語(yǔ)義標(biāo)簽的真實(shí)數(shù)據(jù)集需要大量的手動(dòng)標(biāo)注工作。對(duì)于Cityscapes,準(zhǔn)確標(biāo)記一張圖像需要90分鐘人力。由于這種數(shù)據(jù)集標(biāo)注的困難,用于語(yǔ)義分割的真實(shí)世界數(shù)據(jù)集通常只包含少量樣本,這妨礙了模型對(duì)各種真實(shí)世界情況的推廣。克服此限制的一種可能方法是使用合成數(shù)據(jù)集,例如2016年European Conference on Computer Vision會(huì)議上收錄的《Playing for data:Ground truth from computer games》中使用Grand Theft Auto V(GTA5)游戲引擎收集游戲中的仿真情景作為數(shù)據(jù)集,它們花費(fèi)更少的時(shí)間來(lái)標(biāo)記和擁有更多樣本。然而,由于兩個(gè)數(shù)據(jù)集之間存在較大的外觀差異,在合成數(shù)據(jù)集上訓(xùn)練的模型不能直接用于真實(shí)世界的例子。
用于語(yǔ)義分割的無(wú)監(jiān)督域適應(yīng)(UDA)是旨在解決上述遷移問(wèn)題的任務(wù)。在無(wú)監(jiān)督域適應(yīng)中,標(biāo)記的合成數(shù)據(jù)集稱(chēng)為源域,未標(biāo)記的真實(shí)數(shù)據(jù)集稱(chēng)為目標(biāo)域,任務(wù)是解決語(yǔ)義分割任務(wù)的標(biāo)記源域和未標(biāo)記目標(biāo)域之間的表現(xiàn)差異的問(wèn)題。無(wú)監(jiān)督域適應(yīng)的一般概念是利用來(lái)自目標(biāo)域的未標(biāo)記數(shù)據(jù)來(lái)幫助最小化這兩個(gè)域之間的性能差距。
傳統(tǒng)的域適應(yīng)方法背后的核心思想是最小化源域和目標(biāo)域的特征分布之間的差異,這意味著學(xué)習(xí)域不變特征。分布差異可以通過(guò)基于最大均值差異(MMD)的方法來(lái)測(cè)量或基于對(duì)抗性學(xué)習(xí)的方法。除了全局分布對(duì)齊,類(lèi)別和條件分布對(duì)齊也被廣泛研究。
最近,受到利用未標(biāo)記數(shù)據(jù)的半監(jiān)督學(xué)習(xí)的啟發(fā),一些基于半監(jiān)督學(xué)習(xí)的域適應(yīng)方法被提出用于隱式地對(duì)齊域之間的特征分布。這些基于半監(jiān)督學(xué)習(xí)的方法在分類(lèi)和語(yǔ)義分割中實(shí)現(xiàn)了最先進(jìn)的結(jié)果。例如在2018European Conference on Computer Vision會(huì)議上收錄的《Unsupervised domain adaptation for semantic segmentation via class-balanced self-training》中,提出的類(lèi)平衡的自學(xué)習(xí)方法,它假設(shè)了具有較高預(yù)測(cè)概率的區(qū)域更準(zhǔn)確,讓預(yù)測(cè)概率值高于一定閾值的區(qū)域作為訓(xùn)練的偽標(biāo)簽。
熵最小化方法是半監(jiān)督學(xué)習(xí)中最流行的方法之一,它鼓勵(lì)通過(guò)減小在無(wú)標(biāo)簽樣本上的熵來(lái)得到明確的聚類(lèi)分配。在半監(jiān)督學(xué)習(xí)研究中,有這樣的結(jié)論:未標(biāo)記的例子的信息內(nèi)容隨著類(lèi)重疊而減少。換句話說(shuō),使未標(biāo)記的樣本不那么模糊可以幫助類(lèi)別之間更加可分離,例如,最小化條件熵。在2018年Arxiv網(wǎng)站上的技術(shù)文章《ADVENT:adversarialentropy minimization for domain adaptation in semantic segmentation.》中,他們直接將熵最小化方法用于無(wú)監(jiān)督域適應(yīng)的語(yǔ)義分割,最小化了目標(biāo)樣本的預(yù)測(cè)熵,但是其結(jié)果不如最先進(jìn)的方法。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910353614.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對(duì)象尋址方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺(jué)訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺(jué)系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





