[發明專利]基于自適應注意力機制的圖像描述生成方法在審
| 申請號: | 202111005878.0 | 申請日: | 2021-08-30 |
| 公開(公告)號: | CN113837230A | 公開(公告)日: | 2021-12-24 |
| 發明(設計)人: | 紀榮嶸;紀家沂 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/242;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森;曾權 |
| 地址: | 361005 福建*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自適應 注意力 機制 圖像 描述 生成 方法 | ||
1.基于自適應注意力機制的圖像描述生成方法,其特征在于包括以下步驟:
1)給定一張圖片,使用ResNext101作為特征提取器提取特征,并且將與Faster-RCNN提取區域特征完全相同結構的網格特征作為這張圖片的特征表示;
2)根據網格特征的尺寸構造一個二維坐標系,對坐標系做歸一化處理得到每個網格的相對位置;
3)根據網格的相對位置計算出網格與網格之間的相對幾何關系特征,用來作為網格特征的空間信息表示;
4)將網格特征展平,送入到transformer的編碼器結構中,并用網格與網格之間的相對幾何關系特征來彌補特征展平操作造成的空間信息損失;
5)將已經生成的序列(初始為一個開始字符)送入到一個預訓練的語言模型,提取生成序列的語言信息表示;
6)在transformer的解碼器結構上方,使用一個注意力模型度量視覺信息和語言信息對當前詞預測的貢獻,以便有區分地生成視覺詞和非視覺詞;
7)用visualness指標對單詞的視覺化程度進行量化。
2.如權利要求1所述基于自適應注意力機制的圖像描述生成方法,其特征在于在步驟1)中,所述與Faster-RCNN提取區域特征完全相同結構的網格特征,直接提取網格特征,不需要生成候選區域,以提高特征提取速度。
3.如權利要求1所述基于自適應注意力機制的圖像描述生成方法,其特征在于在步驟2)中,所述二維坐標系構造完成后,每個網格的位置由其左上角和右下角的坐標唯一確定。
4.如權利要求1所述基于自適應注意力機制的圖像描述生成方法,其特征在于在步驟3)中,所述網格與網格之間的相對幾何關系特征包括每個網格的相對中心位置、相對長度和寬度。
5.如權利要求1所述基于自適應注意力機制的圖像描述生成方法,其特征在于在步驟5)中,所述提取生成序列的語言信息表示,首先預訓練一個基于BERT的語言模型,固定其參數,然后用該語言模型提取已生成的序列的語言信息。
6.如權利要求1所述基于自適應注意力機制的圖像描述生成方法,其特征在于在步驟6)中,所述transformer的解碼器結構上方,可構建一個自適應注意力模塊,基于transformer解碼器輸出的隱含狀態,度量視覺信息和語言信息對當前詞預測的貢獻,有區分地生成視覺詞和非視覺詞。
7.如權利要求1所述基于自適應注意力機制的圖像描述生成方法,其特征在于在步驟7)中,所述用visualness指標對單詞的視覺化程度進行量化是基于自適應注意力模塊的輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111005878.0/1.html,轉載請聲明來源鉆瓜專利網。





