[發(fā)明專(zhuān)利]一種基于時(shí)空記憶注意力的圖像描述方法有效
| 申請(qǐng)?zhí)枺?/td> | 201911384977.7 | 申請(qǐng)日: | 2019-12-28 |
| 公開(kāi)(公告)號(hào): | CN111144553B | 公開(kāi)(公告)日: | 2023-06-23 |
| 發(fā)明(設(shè)計(jì))人: | 徐騁;冀俊忠;張曉丹 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類(lèi)號(hào): | G06N3/0442 | 分類(lèi)號(hào): | G06N3/0442;G06N3/0464;G06N3/0455;G06N3/08 |
| 代理公司: | 北京思海天達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 時(shí)空 記憶 注意力 圖像 描述 方法 | ||
1.一種基于時(shí)空記憶注意力的圖像描述方法,其特征在于:該方法包括如下步驟:
步驟(1)獲取MSCOCO圖像描述數(shù)據(jù)集并預(yù)處理;
步驟(2)構(gòu)建編碼器模型,對(duì)編碼器模型進(jìn)行預(yù)訓(xùn)練,完成MSCOCO圖像數(shù)據(jù)I的編碼,得到圖像特征V;
步驟(3)構(gòu)建解碼器,對(duì)圖像特征V進(jìn)行解碼;解碼器是一種三層的循環(huán)神經(jīng)網(wǎng)絡(luò),包括兩層LSTM模型和一層STMA模型,輸入為圖像特征V,輸出為圖像描述結(jié)果Y,Y={y0,y1,…,yT},T為描述的最長(zhǎng)時(shí)刻;
步驟(4)模型訓(xùn)練;基于產(chǎn)生的描述Y與標(biāo)準(zhǔn)的描述數(shù)據(jù)計(jì)算交叉熵?fù)p失或者強(qiáng)化學(xué)習(xí)梯度損失,使用隨機(jī)梯度下降算法對(duì)模型進(jìn)行優(yōu)化,得到最終模型;
步驟(3)中,步驟(3.1)構(gòu)建第一層解碼器LSTM模型;第一層解碼器LSTM模型在t時(shí)刻的輸入包括t時(shí)刻的詞編碼xt,圖像的全局特征以及第三層解碼器LSTM模型在t-1時(shí)刻的輸出其中,詞編碼xt由t-1時(shí)刻的解碼器最終的輸出yt-1線(xiàn)性變換得到,初始為零向量;圖像的全局特征由圖像特征V平均池化得到;第一層解碼器LSTM模型在t時(shí)刻的輸出為
步驟(3.2)構(gòu)建第二層解碼器STMA模型;第二層解碼器STMA模型中的圖像記憶矩陣和輸出向量作為內(nèi)部循環(huán)變量不斷參與到模型的計(jì)算中;第二層解碼器STMA模型在t時(shí)刻的輸入包括圖像特征V和第一層解碼器LSTM模型在t時(shí)刻的輸出第二層解碼器STMA模型在t時(shí)刻的輸出為
步驟(3.3)構(gòu)建第三層解碼器LSTM模型;第三層解碼器LSTM模型在t時(shí)刻的輸入包括第一層解碼器LSTM模型的輸出和第二層解碼器STMA模型的輸出第三層解碼器LSTM模型在t時(shí)刻的輸出為
步驟(3.4)解碼器輸出;對(duì)第三層解碼器LSTM模型在t時(shí)刻的輸出進(jìn)行線(xiàn)性變換與Softmax函數(shù)分類(lèi),得到最終整個(gè)解碼器在t時(shí)刻的輸出yt,不同時(shí)刻的輸出組成最后的圖像描述結(jié)果Y。
2.根據(jù)權(quán)利要求1所述的一種基于時(shí)空記憶注意力的圖像描述方法,其特征在于:步驟(1)中,步驟(1.1)獲取MSCOCO圖像描述數(shù)據(jù)集,包含圖像數(shù)據(jù)I及其對(duì)應(yīng)的標(biāo)準(zhǔn)描述數(shù)據(jù)
步驟(1.2)對(duì)MSCOCO中的描述數(shù)據(jù)進(jìn)行預(yù)處理。
3.根據(jù)權(quán)利要求1所述的一種基于時(shí)空記憶注意力的圖像描述方法,其特征在于:步驟(2)中,步驟(2.1)采用深度卷積神經(jīng)網(wǎng)絡(luò)或目標(biāo)檢測(cè)模型構(gòu)建編碼器模型;
步驟(2.2)對(duì)構(gòu)建好的編碼器模型進(jìn)行預(yù)訓(xùn)練;
步驟(2.3)將MSCOCO圖像數(shù)據(jù)I輸入到編碼器中,完成圖像數(shù)據(jù)的分類(lèi)或目標(biāo)檢測(cè)任務(wù),使用編碼器模型倒數(shù)第二層神經(jīng)網(wǎng)絡(luò)中的特征表示作為圖像編碼,最終得到編碼后的圖像特征V。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911384977.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
- 一種時(shí)空地理大數(shù)據(jù)的檢索方法及系統(tǒng)
- 一種泛知識(shí)化時(shí)空對(duì)象表達(dá)數(shù)據(jù)庫(kù)建立方法
- 一種基于時(shí)空密度波與同步的大型時(shí)空數(shù)據(jù)聚類(lèi)算法GRIDWAVE
- 時(shí)空數(shù)據(jù)的存儲(chǔ)方法、查詢(xún)方法及存儲(chǔ)裝置、查詢(xún)裝置
- 一種云環(huán)境下時(shí)空索引的構(gòu)建方法、裝置及電子設(shè)備
- 面向工業(yè)4.0的時(shí)空大數(shù)據(jù)分布式存儲(chǔ)檢索方法及系統(tǒng)
- 一種數(shù)據(jù)比對(duì)碰撞方法和裝置
- 時(shí)空數(shù)據(jù)的異常檢測(cè)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種可直接捕獲時(shí)空相關(guān)性的時(shí)空數(shù)據(jù)預(yù)測(cè)方法
- 多維時(shí)空譜數(shù)據(jù)融合方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 基于粒子濾波視覺(jué)注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶(hù)注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置





