[發(fā)明專(zhuān)利]一種基于空間注意力地圖的目標(biāo)檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010024750.8 | 申請(qǐng)日: | 2020-01-10 |
| 公開(kāi)(公告)號(hào): | CN111259940B | 公開(kāi)(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計(jì))人: | 郭春生;蔡猛;應(yīng)娜;陳華華;楊萌 | 申請(qǐng)(專(zhuān)利權(quán))人: | 杭州電子科技大學(xué) |
| 主分類(lèi)號(hào): | G06V10/764 | 分類(lèi)號(hào): | G06V10/764;G06V10/82;G06V10/774;G06N3/0455;G06N3/0464;G06N3/045;G06N3/084 |
| 代理公司: | 浙江千克知識(shí)產(chǎn)權(quán)代理有限公司 33246 | 代理人: | 周希良 |
| 地址: | 310018 浙江省杭州市*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 空間 注意力 地圖 目標(biāo) 檢測(cè) 方法 | ||
本發(fā)明公開(kāi)了一種基于空間注意力地圖的目標(biāo)檢測(cè)方法,包括:將測(cè)試圖像輸入預(yù)先訓(xùn)練好的Faster?RCNN網(wǎng)絡(luò),自下向上逐層進(jìn)行特征提取、自上向下逐層進(jìn)行高層語(yǔ)義信息傳播,得到目標(biāo)的空間特征信息和特征梯度信息;對(duì)目標(biāo)的空間特征信息和特征梯度信息進(jìn)行加權(quán)得到目標(biāo)高層語(yǔ)義信息引導(dǎo)的注意力地圖;對(duì)目標(biāo)空間特征信息進(jìn)行數(shù)據(jù)預(yù)處理,得到目標(biāo)感興趣區(qū)域圖;疊加目標(biāo)感興趣區(qū)域圖和注意力地圖,得到目標(biāo)注意力地圖;將目標(biāo)注意力地圖與通道特征權(quán)重進(jìn)行計(jì)算得到多通道空間注意力地圖;將多通道空間注意力地圖與目標(biāo)空間特征信息結(jié)合得到新的目標(biāo)空間特征信息;將新的目標(biāo)空間特征信息聯(lián)合RPN網(wǎng)絡(luò)的目標(biāo)候選框提取出進(jìn)行目標(biāo)分類(lèi)和邊界框回歸的特征。
技術(shù)領(lǐng)域
本發(fā)明涉及目標(biāo)檢測(cè)技術(shù)領(lǐng)域,尤其涉及一種基于空間注意力地圖的目標(biāo)檢測(cè)方法。
背景技術(shù)
目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺(jué)的領(lǐng)域的一個(gè)基礎(chǔ)研究課題,其目標(biāo)是在圖片中對(duì)可變數(shù)量的目標(biāo)進(jìn)行查找和分類(lèi)。得益于深度學(xué)習(xí)的快速發(fā)展,目標(biāo)檢測(cè)的性能取得了較大的進(jìn)展,但是由于目標(biāo)的尺度不一、種類(lèi)和數(shù)量不確定、空間特征信息利用率低以及分類(lèi)與定位精度間的不一致性等問(wèn)題,限制了檢測(cè)精度的提升。考慮到,人們?cè)诳匆患|西的時(shí)候,總能夠快速的將注意力焦點(diǎn)集中在這件東西的某一個(gè)地方或者部位,同時(shí)能夠在較短時(shí)間內(nèi)準(zhǔn)確的獲得這件東西的屬性、類(lèi)別等信息,這意味著人們?cè)谧⒁獾侥硞€(gè)目標(biāo)或某個(gè)場(chǎng)景時(shí),人類(lèi)會(huì)利用有限的注意力資源從大量信息中快速篩選出高價(jià)值信息,即通過(guò)視覺(jué)注意力機(jī)制有效的結(jié)合了自下而上與自上而下的特征信息,進(jìn)而極大提高了視覺(jué)信息處理的效率與準(zhǔn)確性。
受人類(lèi)視覺(jué)注意力的啟發(fā),近幾年注意力模型被廣泛應(yīng)用于深度學(xué)習(xí)的語(yǔ)音識(shí)別、自然語(yǔ)言處理等任務(wù)中。其生成的注意力地圖作為一種解釋網(wǎng)絡(luò)決策的有效方法,不僅有助于提高網(wǎng)絡(luò)中圖像特征信息的利用率,而且能夠保證網(wǎng)絡(luò)在有限注意力資源條件下將注意力焦點(diǎn)更多的投放在目標(biāo)相關(guān)區(qū)域。其中,注意力模型的框架當(dāng)前最為流行的是Transformer模型,它是一種編碼解碼框架主要依賴(lài)于self-attention機(jī)制處理自然語(yǔ)言處理中的各項(xiàng)任務(wù),能夠考慮到序列中元素間的關(guān)聯(lián)性。盡管在深度學(xué)習(xí)的其他任務(wù)中,注意力模型有著較多的應(yīng)用也取得了不錯(cuò)的效果,但是在圖像處理領(lǐng)域如目標(biāo)檢測(cè)任務(wù)中它的應(yīng)用依然是缺乏的。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的缺陷,提供了一種基于空間注意力地圖的目標(biāo)檢測(cè)方法,在目標(biāo)檢測(cè)流程中,通過(guò)引入Transformer注意力模塊以及結(jié)合網(wǎng)絡(luò)自下而上的目標(biāo)特征和自上而下的高層語(yǔ)義信息,不僅能夠使網(wǎng)絡(luò)充分利用目標(biāo)的空間特征信息,而且也能夠使網(wǎng)絡(luò)更多的關(guān)注、定位相關(guān)目標(biāo)區(qū)域
為了實(shí)現(xiàn)以上目的,本發(fā)明采用以下技術(shù)方案:
一種基于空間注意力地圖的目標(biāo)檢測(cè)方法,包括步驟:
S1.將測(cè)試圖像輸入預(yù)先訓(xùn)練好的Faster?RCNN網(wǎng)絡(luò),并自下向上逐層進(jìn)行特征提取、自上向下逐層進(jìn)行高層語(yǔ)義信息傳播,得到目標(biāo)的空間特征信息F和與空間特征信息相對(duì)應(yīng)的特征梯度信息G;
S2.對(duì)所述得到的目標(biāo)的空間特征信息F和特征梯度信息G進(jìn)行加權(quán)計(jì)算,得到目標(biāo)高層語(yǔ)義信息引導(dǎo)的注意力地圖M;
S3.對(duì)所述目標(biāo)的空間特征信息F進(jìn)行數(shù)據(jù)預(yù)處理,通過(guò)Transformer注意力模塊得到目標(biāo)的感興趣區(qū)域圖P;
S4.疊加所述得到的目標(biāo)感興趣區(qū)域圖P和目標(biāo)高層語(yǔ)義信息引導(dǎo)的注意力地圖M,得到目標(biāo)注意力地圖A;并將得到的目標(biāo)注意力地圖A與通道特征權(quán)重進(jìn)行計(jì)算,得到多通道的空間注意力地圖AS;
S5.將所述得到的多通道的空間注意力地圖AS與目標(biāo)空間特征信息F進(jìn)行結(jié)合,得到新的目標(biāo)空間特征信息Fnew;
S6.將得到的新的目標(biāo)空間特征信息Fnew聯(lián)合RPN網(wǎng)絡(luò)的目標(biāo)候選框,提取出進(jìn)行目標(biāo)分類(lèi)和邊界框回歸的特征。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于杭州電子科技大學(xué),未經(jīng)杭州電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010024750.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 基于粒子濾波視覺(jué)注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶(hù)注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置





