[發(fā)明專利]基于注意力金字塔圖網(wǎng)絡(luò)的圖像視覺關(guān)系指代定位方法有效
| 申請?zhí)枺?/td> | 201911370245.2 | 申請日: | 2019-12-26 |
| 公開(公告)號: | CN111241326B | 公開(公告)日: | 2023-09-26 |
| 發(fā)明(設(shè)計)人: | 王瀚漓;朱健 | 申請(專利權(quán))人: | 同濟大學(xué) |
| 主分類號: | G06F16/58 | 分類號: | G06F16/58;G06N3/0464;G06N3/084 |
| 代理公司: | 上海科盛知識產(chǎn)權(quán)代理有限公司 31225 | 代理人: | 翁惠瑜 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 注意力 金字塔 網(wǎng)絡(luò) 圖像 視覺 關(guān)系 指代 定位 方法 | ||
本發(fā)明涉及一種基于注意力金字塔圖網(wǎng)絡(luò)的圖像視覺關(guān)系指代定位方法,該方法通過一注意力金字塔圖網(wǎng)絡(luò)模型對將輸入圖片進行處理,獲得相應(yīng)圖像視覺關(guān)系指代實體定位圖,實現(xiàn)指代定位;所述注意力金字塔圖網(wǎng)絡(luò)模型包括注意力特征金字塔網(wǎng)絡(luò)和關(guān)系傳導(dǎo)圖網(wǎng)絡(luò),其中,所述注意力特征金字塔網(wǎng)絡(luò)用于從輸入圖像中獲取多尺度注意力特征圖,所述關(guān)系傳導(dǎo)圖網(wǎng)絡(luò)基于所述多尺度注意力特征圖獲得最終的視覺關(guān)系指代實體定位圖。與現(xiàn)有技術(shù)相比,本發(fā)明具有定位精度高、魯棒性高等優(yōu)點。
技術(shù)領(lǐng)域
本發(fā)明涉及一種圖像視覺關(guān)系指代定位方法,尤其是涉及一種基于注意力金字塔圖網(wǎng)絡(luò)的圖像視覺關(guān)系指代定位方法。
背景技術(shù)
近年來,表達指代理解得到了計算機視覺和自然語言處理領(lǐng)域越來越多的關(guān)注。該任務(wù)旨在定位特定的指代實體,這項技術(shù)可以幫助消除相同類別實體之間的歧義,從而在安防領(lǐng)域圖像檢索和機器人人機交互等應(yīng)用場景發(fā)揮重要作用。但是,傳統(tǒng)的表達指代理解任務(wù)需要對模型的自然語言和計算機視覺模塊分別進行評估,因此很難判斷錯誤是由語言模塊還是由視覺模塊引起的。為了減輕對復(fù)雜自然語言建模的需求,研究者提出了視覺關(guān)系指代定位任務(wù),它根據(jù)更結(jié)構(gòu)化的視覺關(guān)系三元組subject,relationship,traget,在圖像中定位指代的實體。
先前的工作探索了使用實體共現(xiàn)統(tǒng)計方法、空間轉(zhuǎn)移模型、基于語言先驗的卷積神經(jīng)網(wǎng)絡(luò)模型,效果都不是非常理想。目前最先進的技術(shù)是一種稱為對稱堆疊注意力轉(zhuǎn)移的方法。該方法基于視覺關(guān)系中的一個實體,通過對視覺關(guān)系進行建模來迭代地學(xué)習(xí)將模型注意力從該實體轉(zhuǎn)移到另一個實體,并且能取得優(yōu)于上述方法的結(jié)果。盡管如此,由于視覺關(guān)系三元組中往往包含大量具有小尺寸和難以區(qū)分特征的實體。對稱堆疊注意力轉(zhuǎn)移方法利用單一小尺度的注意力特征圖可能無法有效定位這些小尺寸實體。另外,對稱堆疊注意力轉(zhuǎn)移方法基于圖像中的視覺特征對關(guān)系進行建模,而視覺關(guān)系三元組中某一特定的關(guān)系類別的視覺特征類內(nèi)方差較大,使用視覺特征使模型的學(xué)習(xí)難度較大,且難以對視覺關(guān)系進行區(qū)分。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種定位精度高的基于注意力金字塔圖網(wǎng)絡(luò)的圖像視覺關(guān)系指代定位方法。
本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn):
一種基于注意力金字塔圖網(wǎng)絡(luò)的圖像視覺關(guān)系指代定位方法,該方法通過一注意力金字塔圖網(wǎng)絡(luò)模型對將輸入圖片進行處理,獲得相應(yīng)圖像視覺關(guān)系指代實體定位圖,實現(xiàn)指代定位;
所述注意力金字塔圖網(wǎng)絡(luò)模型包括注意力特征金字塔網(wǎng)絡(luò)和關(guān)系傳導(dǎo)圖網(wǎng)絡(luò),其中,所述注意力特征金字塔網(wǎng)絡(luò)用于從輸入圖像中獲取多尺度注意力特征圖,所述關(guān)系傳導(dǎo)圖網(wǎng)絡(luò)基于所述多尺度注意力特征圖獲得最終的視覺關(guān)系指代實體定位圖。
進一步地,所述多尺度注意力特征圖的獲取過程具體為:
以基于ResNet-50網(wǎng)絡(luò)的特征金字塔對輸入圖像進行特征提取,基于特征金字塔的輸出形成各實體的多尺度特征圖,使用實體類別嵌入特征對每一張?zhí)卣鲌D進行軟注意力機制,得到多尺度注意力特征圖。
進一步地,選取所述特征金字塔的最后三個卷積模塊的輸出形成各實體的所述多尺度特征圖。
進一步地,所述關(guān)系傳導(dǎo)圖網(wǎng)絡(luò)獲得最終的視覺關(guān)系指代實體定位圖的具體步驟包括:
101)基于多尺度注意力特征圖生成注意力特征圖網(wǎng)絡(luò),該網(wǎng)絡(luò)中每一個節(jié)點代表一張注意力特征圖;
102)構(gòu)建注意力特征圖網(wǎng)絡(luò)的權(quán)重矩陣;
103)使用權(quán)重矩陣在注意力特征圖網(wǎng)絡(luò)中進行關(guān)系信息傳遞,對網(wǎng)絡(luò)中的各節(jié)點進行聚合與提純;
104)對提純后的實體多尺度注意力特征進行拼接,映射成與圖像尺寸一致的特征權(quán)重,與圖像特性相乘,生成新圖像特征;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同濟大學(xué),未經(jīng)同濟大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911370245.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





