[發(fā)明專利]一種基于特征擴(kuò)展性學(xué)習(xí)的弱監(jiān)督目標(biāo)定位方法有效
| 申請?zhí)枺?/td> | 202111004064.5 | 申請日: | 2021-08-30 |
| 公開(公告)號: | CN113838130B | 公開(公告)日: | 2023-07-18 |
| 發(fā)明(設(shè)計(jì))人: | 曹劉娟;陳志威 | 申請(專利權(quán))人: | 廈門大學(xué) |
| 主分類號: | G06V10/24 | 分類號: | G06V10/24;G06V10/25;G06V10/774;G06V10/82;G06V10/764;G06N3/0464;G06N3/0895 |
| 代理公司: | 廈門南強(qiáng)之路專利事務(wù)所(普通合伙) 35200 | 代理人: | 馬應(yīng)森;曾權(quán) |
| 地址: | 361005 福建*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 特征 擴(kuò)展性 學(xué)習(xí) 監(jiān)督 目標(biāo) 定位 方法 | ||
一種基于特征擴(kuò)展性學(xué)習(xí)的弱監(jiān)督目標(biāo)定位方法,涉及計(jì)算機(jī)圖像視覺處理。提供基于弱監(jiān)督的訓(xùn)練方式以低成本的圖像標(biāo)注,以僅有的弱標(biāo)簽信息獲取更好的特征,達(dá)到比較好的訓(xùn)練結(jié)果的一種基于特征擴(kuò)展性學(xué)習(xí)的弱監(jiān)督目標(biāo)定位方法。包括如下步驟:1)對待檢測的圖片進(jìn)行預(yù)處理,然后將預(yù)處理后待檢測的圖片及其對應(yīng)的圖片級別的標(biāo)簽送入神經(jīng)網(wǎng)絡(luò);2)神經(jīng)網(wǎng)絡(luò)對圖片進(jìn)行處理,在訓(xùn)練過程中輸出待檢測圖片對應(yīng)每一個類別的概率數(shù)值,在測試過程中輸出待檢測圖片預(yù)測的框的坐標(biāo)、類別、得分。通過擦除來促進(jìn)整體目標(biāo)定位,并通過最大凸顯學(xué)習(xí)來提高分類性能的準(zhǔn)確性;將從多個平行定位頭中學(xué)習(xí)到的目標(biāo)區(qū)域動態(tài)地與接收場的有向擴(kuò)展相結(jié)合。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)圖像視覺處理,尤其是涉及特征拓展和多方向特征融合的一種基于特征擴(kuò)展性學(xué)習(xí)的弱監(jiān)督目標(biāo)定位方法。
背景技術(shù)
近年來,隨著計(jì)算機(jī)性能的提升和大數(shù)據(jù)的發(fā)展,視覺信息數(shù)據(jù)迅猛增多,包括靜態(tài)圖像、動態(tài)圖像、視頻文件、音頻文件等多媒體數(shù)據(jù)都以很快的速度在各種社交媒體上傳播。目標(biāo)檢測作為計(jì)算機(jī)視覺領(lǐng)域最基本的問題之一,被廣泛應(yīng)用于目標(biāo)跟蹤、行為理解、人機(jī)交互、人臉識別等諸多領(lǐng)域,在20世紀(jì)初就吸引眾多學(xué)者的廣泛關(guān)注和研究。人類主要是通過視覺來接收外界信息,所以基于視覺信息的應(yīng)用技術(shù)將是人工智能的一個前瞻性研究點(diǎn);其中,人臉識別、視頻監(jiān)控、目標(biāo)檢測、互聯(lián)網(wǎng)圖像內(nèi)容審查、生物特征識別等技術(shù)都成為當(dāng)今的研究熱點(diǎn)。這些技術(shù)也被廣泛應(yīng)用于醫(yī)療、養(yǎng)老、交通、城市運(yùn)行、安防等領(lǐng)域,例如醫(yī)學(xué)圖像診斷、姿態(tài)估計(jì)、車站安檢、自動駕駛、車速檢測、視頻監(jiān)控行為分析等。
目標(biāo)定位是計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)中極其重要的一個研究領(lǐng)域,融合圖像處理、模式識別、人工智能、自動控制等多個領(lǐng)域的前沿知識。目標(biāo)定位通常只有一個較大的對象位于圖片中間位置,對它進(jìn)行識別和定位。隨著視頻網(wǎng)站和社交網(wǎng)絡(luò)的發(fā)展,人們能夠接觸到大量的圖像和視頻等多媒體資源,目標(biāo)定位也開始廣泛應(yīng)用于上述領(lǐng)域,如在社交網(wǎng)站中對圖片進(jìn)行人臉檢測、在圖像或者視頻序列中進(jìn)行行人檢測、在交通監(jiān)控中進(jìn)行車輛檢測和幫助有視覺障礙的人理解視覺內(nèi)容等。
目標(biāo)定位最近主要集中在對卷積神經(jīng)網(wǎng)絡(luò)(CNN)上進(jìn)行研究,在檢測器訓(xùn)練過程中該卷積神經(jīng)網(wǎng)絡(luò)使用具有實(shí)例級標(biāo)簽(即邊界框標(biāo)注)的大規(guī)模數(shù)據(jù)。然而,收集特定類別的邊界框標(biāo)注顯然是一項(xiàng)費(fèi)時費(fèi)力的工作,這限制檢測器的實(shí)際使用。與邊界框標(biāo)注相比,收集圖像級別的標(biāo)簽容易很多;例如,通過查詢圖像搜索引擎(例如Google?Image)或照片共享網(wǎng)站(例如Flickr),可以輕巧地手動檢查收集的圖像中是否存在目標(biāo)對象。因此,弱監(jiān)督目標(biāo)定位(WSOL)任務(wù),即僅以圖像級別監(jiān)督訓(xùn)練目標(biāo)檢測器最近引起越來越多的關(guān)注。
為利用圖像標(biāo)簽進(jìn)行定位,現(xiàn)有的WSOL方法大多采用CNN分類器挖掘目標(biāo)類的定位圖,形成定位頭。然后生成預(yù)測的邊界盒,以緊密覆蓋高響應(yīng)區(qū)域。不幸的是,仍然存在兩個具有挑戰(zhàn)性的問題,在WSOL和它的完全監(jiān)督的對手之間形成一個顯著的性能差距。首先,分類器往往忽略不顯著的圖像特征,過分依賴顯著區(qū)域進(jìn)行分類。而由于骨干網(wǎng)通常是通過圖像分類預(yù)先訓(xùn)練的,學(xué)習(xí)成功的定位頭是比較困難的。其次,定位頭可能只捕捉目標(biāo)物體的有鑒別性的部分,因?yàn)檫吔绾兄辉诘貓D最有鑒別性的部分周圍生成。上述連鎖問題可能進(jìn)一步相互影響;例如,給定一幅鳥的圖像,即使是鳥的頭部或羽毛也能提供足夠的線索來達(dá)到較高的分類精度。以這幅圖像為例,但是在頭部或羽毛周圍生成的盒子并不能對鳥類整體區(qū)域進(jìn)行定位,導(dǎo)致定位效果較差。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門大學(xué),未經(jīng)廈門大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111004064.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 可擴(kuò)展性編碼裝置以及可擴(kuò)展性編碼方法
- 可擴(kuò)展性編碼裝置和可擴(kuò)展性解碼裝置及其方法
- 可擴(kuò)展性編碼裝置、可擴(kuò)展性解碼裝置以及可擴(kuò)展性編碼方法
- 用于調(diào)節(jié)可擴(kuò)展性點(diǎn)對消息的訪問的系統(tǒng)和方法
- 可擴(kuò)展性電池模塊
- 可擴(kuò)展性解碼裝置及可擴(kuò)展性解碼方法
- 擴(kuò)展性天線結(jié)構(gòu)及基于擴(kuò)展性天線的手機(jī)
- 一種腐蝕裂紋擴(kuò)展性能表征與壽命估算的方法
- 動態(tài)服務(wù)擴(kuò)展性
- 一種基于訪客數(shù)據(jù)的小區(qū)訪客平臺自動擴(kuò)展方法及裝置
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





