[發明專利]基于注意力金字塔圖網絡的圖像視覺關系指代定位方法有效
| 申請號: | 201911370245.2 | 申請日: | 2019-12-26 |
| 公開(公告)號: | CN111241326B | 公開(公告)日: | 2023-09-26 |
| 發明(設計)人: | 王瀚漓;朱健 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F16/58 | 分類號: | G06F16/58;G06N3/0464;G06N3/084 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 翁惠瑜 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 金字塔 網絡 圖像 視覺 關系 指代 定位 方法 | ||
1.一種基于注意力金字塔圖網絡的圖像視覺關系指代定位方法,其特征在于,該方法通過一注意力金字塔圖網絡模型對將輸入圖片進行處理,獲得相應圖像視覺關系指代實體定位圖,實現指代定位;
所述注意力金字塔圖網絡模型包括注意力特征金字塔網絡和關系傳導圖網絡,其中,所述注意力特征金字塔網絡用于從輸入圖像中獲取多尺度注意力特征圖,所述關系傳導圖網絡基于所述多尺度注意力特征圖獲得最終的視覺關系指代實體定位圖;
所述關系傳導圖網絡獲得最終的視覺關系指代實體定位圖的具體步驟包括:
101)基于多尺度注意力特征圖生成注意力特征圖網絡,該網絡中每一個節點代表一張注意力特征圖;
102)構建注意力特征圖網絡的權重矩陣;
103)使用權重矩陣在注意力特征圖網絡中進行關系信息傳遞,對網絡中的各節點進行聚合與提純;
104)對提純后的實體多尺度注意力特征進行拼接,映射成與圖像尺寸一致的特征權重,與圖像特性相乘,生成新圖像特征;
105)對新圖像特征使用基于實體嵌入特征的注意力機制得到最后的視覺關系指代實體定位圖;
對所述注意力金字塔圖網絡模型進行訓練的過程具體為:
生成基準定位圖,以構建的注意力金字塔圖網絡模型對訓練樣本獲得的視覺關系指代實體定位圖與基準定位圖進行對比,并計算損失函數進行回傳以更新模型;
所述基準定位圖中,每一張定位圖對應一組視覺關系三元組中的一個實體,具體生成過程包括:
1a)選取一張圖像和圖像中的一對視覺關系三元組,在圖中尋找視覺關系指代實體的檢測框的標注;
1b)定義一張與上述圖像尺寸相同的定位圖,在檢測框中的位置的像素置1,檢測框外的置0;
1c)若一張圖像中有完全一致的若干組視覺關系三元組,則將它們疊加在首次出現該三元組的定位圖中;
1d)重復步驟1a)、1b)和1c)多次,將數據集中所有視覺關系都生成視覺關系指代實體定位圖。
2.根據權利要求1所述的基于注意力金字塔圖網絡的圖像視覺關系指代定位方法,其特征在于,所述多尺度注意力特征圖的獲取過程具體為:
以基于ResNet-50網絡的特征金字塔對輸入圖像進行特征提取,基于特征金字塔的輸出形成各實體的多尺度特征圖,使用實體類別嵌入特征對每一張特征圖進行軟注意力機制,得到多尺度注意力特征圖。
3.根據權利要求2所述的基于注意力金字塔圖網絡的圖像視覺關系指代定位方法,其特征在于,選取所述特征金字塔的最后三個卷積模塊的輸出形成各實體的所述多尺度特征圖。
4.根據權利要求1所述的基于注意力金字塔圖網絡的圖像視覺關系指代定位方法,其特征在于,基于視覺關系三元組嵌入特征獲得所述權重矩陣。
5.根據權利要求1所述的基于注意力金字塔圖網絡的圖像視覺關系指代定位方法,其特征在于,所述損失函數的表達式為:
式中,N為訓練批次數,Θ為網絡參數,D(xi;Θ)為輸入圖片xi經注意力金字塔圖網絡模型處理后生成的定位圖,D(xi)GT為輸入圖片xi的基準定位圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911370245.2/1.html,轉載請聲明來源鉆瓜專利網。





