[發明專利]一種基于卷積神經網絡、注意力機制及自注意力變換器的視覺描述方法有效
| 申請號: | 202110785560.2 | 申請日: | 2021-07-12 |
| 公開(公告)號: | CN113469260B | 公開(公告)日: | 2022-10-04 |
| 發明(設計)人: | 周冕;劉文軒;叢鈳倫;朱國強;高毅;戚周銘 | 申請(專利權)人: | 天津理工大學 |
| 主分類號: | G06V10/80 | 分類號: | G06V10/80;G06V10/82;G06N3/04 |
| 代理公司: | 天津佳盟知識產權代理有限公司 12002 | 代理人: | 劉書元 |
| 地址: | 300384 *** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 神經網絡 注意力 機制 變換器 視覺 描述 方法 | ||
1.一種基于卷積神經網絡、注意力機制及自注意力變換器的視覺描述方法,其特征在于包括以下步驟:
第1、整體網絡的構建:
第1.1、將ResNet101作為主干網絡,使用其全連接層輸出作為圖像特征輸入后續網絡;
第1.2、通過將圖像特征拆分為16個子特征,將16個子特征分別送入融合注意力單元即AMNet,進行加權融合,保留有效圖片特征,輸出全局融合特征;
第1.3、通過循環神經網絡模塊對多張圖的全局融合特征進行級聯,隨后依次輸入transformer結構;
第1.4、利用自注意力transformer解碼獲得連續文本描述;
步驟第1.2中將圖像特征分割為16個子特征,依次輸入融合注意力單元,注意力單元將融合后的特征進行輸出,其中每一個子特征的時間步的輸入為當前子特征以及通過注意力模塊融合后的前序時間步融合圖像特征,輸出兩個輸入的融合圖像特征,輸入為最后時間步的注意力單元輸出即為16個子特征的融合特征,其保留完整語義信息,同時對于圖像特征中的干擾信息以及無效背景信息進行了有效剔除;
假設xi是注意力模塊的輸入特征,gi為輸出融合圖像特征,則上述過程描述為:
gi=AM(xi),
其中AM為注意力模塊,其具體定義如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
其中zt和rt分別表示更新門和重置門;ht表示通過更新門和重置門控制的注意力模塊輸出。
2.如權利要求1所述的基于卷積神經網絡、注意力機制及自注意力變換器的視覺描述方法,其特征在于,步驟第1.1中構建了基礎網絡,采用改寫的ResNet,使用全連接層的特征獲得圖像特征。
3.如權利要求1所述的基于卷積神經網絡、注意力機制及自注意力變換器的視覺描述方法,其特征在于,步驟第1.3中對于多張圖片的全局融合特征方案類如下:將每張圖片的融合圖像特征gi作為循環神經網絡Rnn的輸入中并與其輸出相拼接得到輸出ci:
ri=Rnn(gi),
ci=concat(gi,ri),
其中Rnn是用于全局特征融合的循環神經網絡,本方案中使用LSTM,concat的作用是拼接gi與ci。
4.如權利要求1所述的基于卷積神經網絡、注意力機制及自注意力變換器的視覺描述方法,其特征在于,步驟第1.4中使用transformer作為解碼器依次將融合特征ci作為輸入進行解碼獲得輸出ti:
ti=transformer(ci)
最后,將上述向量通過詞嵌入矩陣得到視覺敘事輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津理工大學,未經天津理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110785560.2/1.html,轉載請聲明來源鉆瓜專利網。





