[發(fā)明專利]一種基于多分辨率特征融合的目標(biāo)關(guān)鍵點(diǎn)檢測方法有效
| 申請?zhí)枺?/td> | 202011509933.5 | 申請日: | 2020-12-19 |
| 公開(公告)號(hào): | CN112580721B | 公開(公告)日: | 2023-10-24 |
| 發(fā)明(設(shè)計(jì))人: | 何寧;張聰聰 | 申請(專利權(quán))人: | 北京聯(lián)合大學(xué) |
| 主分類號(hào): | G06V40/10 | 分類號(hào): | G06V40/10;G06V10/80;G06V10/764;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 北京思海天達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100101 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分辨率 特征 融合 目標(biāo) 關(guān)鍵 檢測 方法 | ||
本發(fā)明公開了一種基于多分辨率特征融合的目標(biāo)關(guān)鍵點(diǎn)檢測方法,分為三個(gè)部分:特征提取、多分辨率特征融合、分辨率調(diào)整。特征提取模塊使用骨架網(wǎng)絡(luò)ResNet網(wǎng)絡(luò)提取圖像特征;多分辨率特征融合模塊對提取的特征圖重復(fù)上下采樣,將特征圖進(jìn)行融合。分辨率調(diào)整模塊對融合模塊得到的特征圖與從低分辨率特征中上采樣得到的特征圖進(jìn)行拼接。最后輸出姿態(tài)熱圖估計(jì)結(jié)果。該方法將主干網(wǎng)絡(luò)提取出的不同分辨率的特征,進(jìn)行多次融合,構(gòu)建了一種新的目標(biāo)關(guān)鍵點(diǎn)檢測方法,可對任何大小的圖片,進(jìn)行單目標(biāo)關(guān)鍵點(diǎn)檢測;本發(fā)明有效的融合了網(wǎng)絡(luò)的深層特征和淺層特征,在精度、模型參數(shù)量和計(jì)算量方面體現(xiàn)出了較大的優(yōu)越性。
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)視覺、數(shù)字圖像處理技術(shù)領(lǐng)域,尤其涉及一種基于多分辨率特征融合的目標(biāo)關(guān)鍵點(diǎn)檢測方法。
背景技術(shù)
目標(biāo)關(guān)鍵點(diǎn)檢測也稱姿態(tài)估計(jì)。姿態(tài)估計(jì)早期應(yīng)用在人體骨架檢測,主要應(yīng)用場景有:協(xié)助體育裁判評分、訓(xùn)練機(jī)器人形體動(dòng)作、虛擬換衣等。同時(shí),人體行為分析現(xiàn)在也是一大研究熱點(diǎn)。越來越多的研究人員,不斷地通過精準(zhǔn)且連續(xù)的姿態(tài)估計(jì)來分析人體行為。其中,將人體姿態(tài)用圖的方式來表示,并且通過圖結(jié)構(gòu)中包含的特征來提取更高語義層次的人體行為信息。也有很多研究者,將目標(biāo)關(guān)鍵點(diǎn)檢測用于動(dòng)物數(shù)據(jù)集,進(jìn)一步分析動(dòng)物的行為。
現(xiàn)有的目標(biāo)關(guān)鍵點(diǎn)檢測算法大都使用卷積神經(jīng)網(wǎng)絡(luò)。常見的模型,大多先使用主干網(wǎng)絡(luò)對圖像進(jìn)行特征提取,為了減少模型的運(yùn)算量,在提取特征的過程中不斷地降低圖像的分辨率,例如ResNet。在主干網(wǎng)絡(luò)之后,再通過幾步上采樣將圖像恢復(fù)到任務(wù)所需的分辨率。這類型的模型在很多應(yīng)用中取得了較高的精度。后來,研究者意識(shí)到,在卷積神經(jīng)網(wǎng)絡(luò)模型中,網(wǎng)絡(luò)淺層提取的特征包含較多的細(xì)節(jié)信息,網(wǎng)絡(luò)深層提取的特征包含較多的語義信息。Unet在ResNet的基礎(chǔ)上,將相同分辨率的主干網(wǎng)絡(luò)和上采樣部分的特征進(jìn)行融合,取得了更高的精度。但在Unet中主干網(wǎng)絡(luò)和上采樣部分的參數(shù)量幾乎相同,大大的增加了模型的大小和浮點(diǎn)運(yùn)算量。如何在不增加網(wǎng)絡(luò)計(jì)算量的情況下,更加有效的融合圖像的細(xì)節(jié)信息和語義信息,使得網(wǎng)絡(luò)的性能得以提升也是一個(gè)眾人研究的課題。
針對以上問題,本方法提出了一種多分辨率融合模塊,有效的融合了網(wǎng)絡(luò)的深層特征和淺層特征,可以在幾乎不增加網(wǎng)絡(luò)開銷的前提下,提升模型的效率。并在MPII數(shù)據(jù)集和ATRW dataset中得到了驗(yàn)證。
發(fā)明內(nèi)容
本發(fā)明是一種基于多分辨率特征融合的目標(biāo)關(guān)鍵點(diǎn)檢測方法,主要分為三個(gè)部分:特征提取模塊、多分辨率特征融合模塊、分辨率調(diào)整模塊。特征提取模塊使用骨架網(wǎng)絡(luò)ResNet網(wǎng)絡(luò)提取圖像特征;多分辨率特征融合模塊對提取的特征圖重復(fù)上下采樣,將分辨率為192×144、96×72、48×36的特征圖進(jìn)行融合。分辨率調(diào)整模塊對融合模塊得到的特征圖與從低分辨率特征中上采樣得到的特征圖進(jìn)行拼接。最后輸出姿態(tài)熱圖估計(jì)結(jié)果。
該方法將主干網(wǎng)絡(luò)提取出的不同分辨率的特征,進(jìn)行多次融合,構(gòu)建了一種新的目標(biāo)關(guān)鍵點(diǎn)檢測方法,可對任何大小的圖片,進(jìn)行單目標(biāo)關(guān)鍵點(diǎn)檢測,主要包括以下步驟:
步驟1:輸入已裁剪好的單目標(biāo)圖片到目標(biāo)關(guān)鍵點(diǎn)檢測模型中。
步驟2:將單目標(biāo)圖片的分辨率調(diào)整為當(dāng)前網(wǎng)絡(luò)設(shè)定的分辨率。
步驟3:對輸入的單目標(biāo)圖片使用ResNet網(wǎng)絡(luò)提取圖像特征,分別得到分辨率為96×128,48×64,24×32,12×16,6×8的特征圖,將這五個(gè)分辨率大小不同的特征圖取名為:2×down,4×down,8×down,16×down,32×down(在下面用到這五個(gè)名稱時(shí)按最新賦值的作為有效)。
步驟4:將ResNet特征提取網(wǎng)絡(luò)提取的2×down,4×down,8×down,16×down等四個(gè)特征圖進(jìn)行多分辨率特征融合。
步驟4-1:主要融合分為三部分,首先分別將4×down和8×down下采樣兩次和一次,然后與16×down進(jìn)行拼接,得到新的16×down。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京聯(lián)合大學(xué),未經(jīng)北京聯(lián)合大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011509933.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





