[發(fā)明專利]一種基于一致性約束的半監(jiān)督目標(biāo)檢測方法有效
| 申請?zhí)枺?/td> | 202110286708.8 | 申請日: | 2021-03-17 |
| 公開(公告)號: | CN112926673B | 公開(公告)日: | 2023-01-17 |
| 發(fā)明(設(shè)計(jì))人: | 王好謙;王顥涵 | 申請(專利權(quán))人: | 清華大學(xué)深圳國際研究生院 |
| 主分類號: | G06V10/82 | 分類號: | G06V10/82;G06V10/764;G06V10/25;G06T7/73;G06N3/0464;G06N3/0895 |
| 代理公司: | 深圳新創(chuàng)友知識產(chǎn)權(quán)代理有限公司 44223 | 代理人: | 王震宇 |
| 地址: | 518055 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 一致性 約束 監(jiān)督 目標(biāo) 檢測 方法 | ||
一種基于一致性約束的半監(jiān)督目標(biāo)檢測方法,包括如下步驟:對訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng),得到重構(gòu)訓(xùn)練集;構(gòu)造任意基于深度學(xué)習(xí)的目標(biāo)檢測模型;在每一輪訓(xùn)練中,在每一個訓(xùn)練批次內(nèi),同時將訓(xùn)練集中采樣的圖像和重構(gòu)訓(xùn)練集中對應(yīng)的重構(gòu)圖像輸入模型網(wǎng)絡(luò),計(jì)算原始圖像預(yù)測結(jié)果與原始圖像的真值標(biāo)簽的誤差,并計(jì)算原始圖像與重構(gòu)圖像間的一致性誤差,將兩誤差加權(quán)求和,作為模型訓(xùn)練的總誤差;使用批次梯度下降的方法更新參數(shù);利用訓(xùn)練好的網(wǎng)絡(luò)對輸入圖像進(jìn)行目標(biāo)檢測,得到輸入圖像中的目標(biāo)的位置和類別。與傳統(tǒng)的全監(jiān)督目標(biāo)檢測模型相比,本申請可使用數(shù)量更少的人工標(biāo)注達(dá)到相當(dāng)?shù)男阅?,或使用同樣?shù)量的標(biāo)簽與更多的無標(biāo)簽圖像達(dá)到更好的性能。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)視覺和圖像處理領(lǐng)域,特別是涉及一種基于一致性約束的半監(jiān)督目標(biāo)檢測方法。
背景技術(shù)
目標(biāo)檢測(Object Detection)是計(jì)算機(jī)視覺領(lǐng)域最重要和最具挑戰(zhàn)性的問題之一。給定任意大小的輸入圖像,目標(biāo)檢測模型會輸出圖像中預(yù)定義的一類或多類物體的位置與類別。目標(biāo)檢測具有非常廣泛的應(yīng)用場景,如自動駕駛,工業(yè)生產(chǎn),視頻監(jiān)控,醫(yī)學(xué)影像處理,衛(wèi)星影像處理等。因此,目標(biāo)檢測始終都是學(xué)術(shù)界與工業(yè)界非常關(guān)注的研究問題。
當(dāng)前主流的目標(biāo)檢測模型大多基于深度神經(jīng)網(wǎng)絡(luò),并采用全監(jiān)督學(xué)習(xí)的訓(xùn)練方式。全監(jiān)督學(xué)習(xí)方式下,每一張訓(xùn)練圖像都應(yīng)具有準(zhǔn)確、全面的標(biāo)簽。據(jù)研究,精確地標(biāo)注一個物體需要約10秒的時間,而一張圖像中往往具有多個物體。由于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量數(shù)據(jù),因此對訓(xùn)練圖像完成標(biāo)注需要耗費(fèi)大量時間和人力。與此同時,很多應(yīng)用場景下都不乏無標(biāo)簽數(shù)據(jù),然而現(xiàn)有的全監(jiān)督學(xué)習(xí)方式無法有效地利用這些無標(biāo)簽數(shù)據(jù)。如上所述,無標(biāo)簽訓(xùn)練數(shù)據(jù)的使用,有助于減少深度神經(jīng)網(wǎng)絡(luò)對人工標(biāo)注的依賴,也有助于模型充分利用來源更廣、數(shù)量更大的無標(biāo)簽數(shù)據(jù)。
半監(jiān)督學(xué)習(xí)面向一部分含有標(biāo)簽,一部分不含標(biāo)簽的訓(xùn)練數(shù)據(jù),是一種既能從標(biāo)簽中獲得強(qiáng)監(jiān)督學(xué)習(xí)信號、又可以從無標(biāo)簽的訓(xùn)練數(shù)據(jù)中挖掘到有用的學(xué)習(xí)信息的學(xué)習(xí)方式。然而,現(xiàn)有的半監(jiān)督學(xué)習(xí)主要聚焦于分類任務(wù)。在標(biāo)注成本更大、學(xué)習(xí)過程更困難的目標(biāo)檢測問題上,對半監(jiān)督學(xué)習(xí)的探索并不充分。因此,將半監(jiān)督學(xué)習(xí)的方法引入目標(biāo)檢測任務(wù),具有更強(qiáng)的學(xué)術(shù)價值與應(yīng)用前景。
現(xiàn)有的半監(jiān)督目標(biāo)檢測方法與半監(jiān)督分類方法有很多共通之處,其中主流的半監(jiān)督目標(biāo)檢測方法采用的是基于自訓(xùn)練的學(xué)習(xí)方式。自訓(xùn)練指的是首先使用全監(jiān)督學(xué)習(xí)的方式,從含標(biāo)簽圖像中訓(xùn)練生成一個初始模型,再通過該模型處理無標(biāo)簽圖像,將高置信度結(jié)果作為無標(biāo)簽圖像的偽標(biāo)簽;這一過程迭代進(jìn)行多次,直至滿足停止條件。然而,這一類方法需要過長的訓(xùn)練時間,且對偽標(biāo)簽篩選的超參數(shù)過于敏感。
另一種常用且有效的半監(jiān)督分類方法是基于一致性約束的。一致性約束指的是對輸入圖像進(jìn)行少量擾動,則輸出結(jié)果應(yīng)當(dāng)保持一致。由于分類問題的輸出只是一個固定維度的類別向量,該輸出對輸入圖像的像素位置分布與色彩分布較為魯棒,因此對輸入進(jìn)行擾動是非常簡單且自然的,如鏡像翻轉(zhuǎn),裁剪,色彩抖動等。然而,對于目標(biāo)檢測問題,其輸出與輸入圖像的像素位置高度相關(guān),因此,設(shè)計(jì)合適的對輸入圖像的擾動,使得目標(biāo)檢測任務(wù)能從擾動中學(xué)習(xí)到一致性,是非常具有挑戰(zhàn)性的。
需要說明的是,在上述背景技術(shù)部分公開的信息僅用于對本申請的背景的理解,因此可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種基于一致性約束的半監(jiān)督目標(biāo)檢測方法,以解決上述背景技術(shù)存在的模型訓(xùn)練高度依賴人工標(biāo)簽的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
一種基于一致性約束的半監(jiān)督目標(biāo)檢測方法,包括如下步驟:
第一步,數(shù)據(jù)增強(qiáng):對訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng),得到重構(gòu)訓(xùn)練集;
第二步,模型初始化:構(gòu)造任意基于深度學(xué)習(xí)的目標(biāo)檢測模型;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué)深圳國際研究生院,未經(jīng)清華大學(xué)深圳國際研究生院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110286708.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





