[發(fā)明專利]一種基于視覺和空間關(guān)系融合的圖注意力網(wǎng)絡(luò)構(gòu)建方法在審
| 申請?zhí)枺?/td> | 202010946723.6 | 申請日: | 2020-09-10 |
| 公開(公告)號: | CN112184805A | 公開(公告)日: | 2021-01-05 |
| 發(fā)明(設(shè)計)人: | 俞俊;楊艷 | 申請(專利權(quán))人: | 杭州電子科技大學(xué) |
| 主分類號: | G06T7/73 | 分類號: | G06T7/73;G06K9/32;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 視覺 空間 關(guān)系 融合 注意力 網(wǎng)絡(luò) 構(gòu)建 方法 | ||
本發(fā)明公開了一種基于視覺和空間關(guān)系融合的圖注意力網(wǎng)絡(luò)構(gòu)建方法。本發(fā)明步驟如下:1、對輸入圖像中的目標(biāo)對象,計算目標(biāo)對象的視覺特征和絕對位置特征。利用兩個特征構(gòu)成輸入圖像所形成圖中的一個雙屬性節(jié)點,最終形成一個圖;2、計算圖中每個鄰節(jié)點到中心節(jié)點的空間幾何相對位置特征;3、計算每個鄰節(jié)點到中心節(jié)點之間的注意力權(quán)重;4、計算每個鄰節(jié)點到中心節(jié)點的傳遞信息;5、將中心節(jié)點對應(yīng)的所有鄰節(jié)點到該中心節(jié)點的傳遞信息和對應(yīng)的注意力權(quán)重相乘后求和,得到聚合后該中心節(jié)點的信息。用該信息更新視覺特征,保持絕對位置特征不變。本發(fā)明可以用于輔助各種視覺場景分析,是一個可以嵌入不同視覺任務(wù)的通用模型。
技術(shù)領(lǐng)域
本發(fā)明涉及不同對象之間的視覺和空間位置關(guān)系建模和圖注意力網(wǎng)絡(luò)領(lǐng)域,尤其涉及一種基于視覺和空間關(guān)系融合的圖注意力網(wǎng)絡(luò)構(gòu)建方法,一種結(jié)合視覺特征和空間位置特征的圖注意力網(wǎng)絡(luò)。
背景技術(shù)
探索圖像中目標(biāo)對象之間的關(guān)系,可以輔助對視覺場景的理解,從而幫助提升相關(guān)視覺任務(wù)的性能,例如目標(biāo)檢測、圖像字幕和視覺問題回答等。但是,不同圖像包含不同的目標(biāo)對象,不同的對象之間又有多種關(guān)系。在大多數(shù)實際的相關(guān)任務(wù)應(yīng)用中,并沒有事先提供對象之間的關(guān)系注釋。因此,設(shè)計一個能夠詳細(xì)挖掘目標(biāo)對象之間關(guān)系的模型就顯得至關(guān)重要。
注意力網(wǎng)絡(luò)是一種常用的對象關(guān)系建模機制。一般來說,要將圖像中檢測到的對象及其之間的關(guān)系構(gòu)成一個圖,這個圖包含有節(jié)點和節(jié)點之間的連接邊。注意力網(wǎng)絡(luò)主要由兩個過程組成:注意力權(quán)重計算和信息傳遞聚合。然而,先前大多數(shù)的注意力網(wǎng)絡(luò)只使用節(jié)點的視覺信息來完成這兩個過程,忽略了節(jié)點之間的空間關(guān)系。然而,對象的空間信息對目標(biāo)之間的關(guān)系建模也有很大影響。
為了解決這個問題,研究者們嘗試將目標(biāo)之間的空間位置關(guān)系也加入注意力網(wǎng)絡(luò)中,建立了空間注意力網(wǎng)絡(luò)。盡管如此,這些方法仍然存在至少兩個問題:目前的空間特征對于描述空間關(guān)系并不全面,大多數(shù)空間注意力網(wǎng)絡(luò)在邊的權(quán)重計算中只添加了空間信息。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)不足,提供一種基于視覺和空間關(guān)系融合的圖注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)將圖像的視覺和空間關(guān)系融合在一個雙屬性圖中,能對圖像中各對象之間關(guān)系進(jìn)行精確建模。該網(wǎng)絡(luò)能同時完成視覺和空間信息的聚合更新,很好地應(yīng)用于相關(guān)的視覺任務(wù),幫助理解視覺場景信息。在目標(biāo)檢測、圖像字幕和視覺問題回答等任務(wù)上,取得了更好的效果。
一種基于視覺和空間關(guān)系融合的圖注意力網(wǎng)絡(luò)構(gòu)建方法,其具體步驟如下:
步驟(1)、對輸入圖像中的目標(biāo)對象,計算目標(biāo)對象對應(yīng)的視覺特征和絕對位置特征。
利用每個目標(biāo)對象的視覺特征和絕對位置特征,構(gòu)成輸入圖像所形成圖中的一個雙屬性節(jié)點,最終形成一個圖;
步驟(2)、計算圖中每個鄰節(jié)點到中心節(jié)點之間的空間幾何相對位置特征;
步驟(3)、計算每個鄰節(jié)點到中心節(jié)點之間的注意力權(quán)重,注意力權(quán)重包括視覺注意力和復(fù)合注意力兩部分信息;
步驟(4)、計算每個鄰節(jié)點到中心節(jié)點的傳遞信息,傳遞信息包括視覺傳遞信息和復(fù)合傳遞信息兩方面內(nèi)容;
步驟(5)、將一個中心節(jié)點對應(yīng)的所有鄰節(jié)點到該中心節(jié)點的傳遞信息和對應(yīng)的注意力權(quán)重分別相乘后求和,得到聚合后這個中心節(jié)點的信息。這個信息僅用于更新這個中心節(jié)點的視覺特征。該中心節(jié)點的絕對位置特征保持不變。
進(jìn)一步的,步驟(1)所述的輸入一幅圖像,對其進(jìn)行目標(biāo)檢測,并對檢測到的目標(biāo)分別計算得到對應(yīng)的視覺特征和絕對位置特征利用每個目標(biāo)的視覺特征和絕對位置特征構(gòu)成這幅圖像所形成圖中的一個雙屬性節(jié)點,最終形成一個圖,具體實現(xiàn)如下:
步驟(1)中的視覺特征是指輸入圖像中一個目標(biāo)對象的視覺特征。
步驟(1)中的絕對位置特征是指輸入圖像中一個目標(biāo)對象的絕對位置特征;具體公式如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學(xué),未經(jīng)杭州電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010946723.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





