[發(fā)明專利]融合視覺注意力和語義注意力的圖像字幕生成方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710806115.3 | 申請日: | 2017-09-08 |
| 公開(公告)號: | CN107608943B | 公開(公告)日: | 2020-07-28 |
| 發(fā)明(設(shè)計)人: | 吳春雷;魏燚偉;儲曉亮;王雷全;崔學(xué)榮 | 申請(專利權(quán))人: | 中國石油大學(xué)(華東) |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18;G06K9/46;G06N3/04;G06N3/08 |
| 代理公司: | 濟(jì)南圣達(dá)知識產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 266580 山東省*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 融合 視覺 注意力 語義 圖像 字幕 生成 方法 系統(tǒng) | ||
1.一種融合視覺注意力和語義注意力的圖像字幕生成方法,其特征是,包括:
步驟(1):通過卷積神經(jīng)網(wǎng)絡(luò)從每個待生成字幕的圖像中提取圖像特征,得到圖像特征集合;
步驟(2):建立LSTM模型,將每個待生成字幕的圖像對應(yīng)的預(yù)先標(biāo)注文本描述傳入LSTM模型,得到時序信息;
步驟(3):結(jié)合步驟(1)的圖像特征集合和步驟(2)的時序信息,生成視覺注意力模型;
步驟(4):結(jié)合步驟(1)的圖像特征集合、步驟(2)的時序信息和前一時序的單詞,生成語義注意力模型;
步驟(5):根據(jù)步驟(3)的視覺注意力模型和步驟(4)的語義注意力模型,生成自動平衡策略模型;
步驟(6):根據(jù)步驟(1)的圖像特征集合和待生成字幕的圖像對應(yīng)的預(yù)先標(biāo)注文本描述,建立gLSTM模型;
步驟(7):根據(jù)步驟(6)建立的gLSTM模型和步驟(5)的自動平衡策略模型,利用多層感知機(jī)模型MLP生成待生成字幕的圖像對應(yīng)的單詞;
步驟(8):重復(fù)步驟(2)-(7),直到檢測到停止標(biāo)識,將得到的所有單詞進(jìn)行串聯(lián)組合,產(chǎn)生字幕。
2.如權(quán)利要求1所述的一種融合視覺注意力和語義注意力的圖像字幕生成方法,其特征是,所述步驟(2)中LSTM模型為:
其中,代表長短期記憶網(wǎng)絡(luò)LSTM在t時刻的隱藏狀態(tài),xt表示t時刻輸入的文字矩陣,其維度為[2048,512],代表長短期記憶網(wǎng)絡(luò)LSTM在t-1時刻的隱藏狀態(tài),而代表t-1時刻的細(xì)胞狀態(tài)。
3.如權(quán)利要求2所述的一種融合視覺注意力和語義注意力的圖像字幕生成方法,其特征是,所述步驟(3)的視覺注意力模型是:
其中,softmax表示邏輯回歸分類函數(shù),V代表通過卷積神經(jīng)網(wǎng)絡(luò)VGG模型提取的特征,其維度為[2048,49],tanh代表雙曲正切非線性函數(shù),代表視覺注意力向量,維度為[49],視覺注意力向量中的數(shù)字代表看向?qū)?yīng)圖像特征V區(qū)域的概率,數(shù)字總和為1,代表視覺注意力模型上下文矩陣,維度為[512,49]。
4.如權(quán)利要求3所述的一種融合視覺注意力和語義注意力的圖像字幕生成方法,其特征是,所述步驟(4)的語義注意力模型是:
其中,Wt-1代表t-1時刻生成單詞所轉(zhuǎn)化的矩陣,其維度為[2048,512],V′t為加權(quán)語義信息后的特征向量矩陣,softmax表示邏輯回歸分類函數(shù),tanh代表神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的雙曲正切非線性函數(shù),代表語義注意力向量,其維度為[49],向量中的數(shù)字代表看向?qū)?yīng)圖像特征V′t區(qū)域的概率,數(shù)字總和為1,代表語義注意力模型上下文矩陣,其維度為[512,49]。
5.如權(quán)利要求4所述的一種融合視覺注意力和語義注意力的圖像字幕生成方法,其特征是,所述步驟(5)的公式為:
其中,σν代表視覺注意力向量的變異系數(shù),σs代表語義注意力向量的變異系數(shù),所述變異系數(shù)用來衡量向量的離散程度,視覺注意力向量和語義注意力向量的長度均為N,β代表自我平衡模型的權(quán)重系數(shù),用來給視覺注意力模型上下文矩陣和語義注意力模型上下文矩陣分配權(quán)重;ct代表自動平衡策略模型的上下文矩陣。
6.如權(quán)利要求5所述的一種融合視覺注意力和語義注意力的圖像字幕生成方法,其特征是,所述步驟(6)的gLSTM模型為:
其中,代表gLSTM模型在t時刻的隱藏狀態(tài),表示當(dāng)前時刻傳入gLSTM的文字矩陣,其維度為[2048,512],代表gLSTM在t-1時刻的隱藏狀態(tài),而代表gLSTM在t-1時刻的細(xì)胞狀態(tài)。
7.如權(quán)利要求6所述的一種融合視覺注意力和語義注意力的圖像字幕生成方法,其特征是,所述步驟(7)中:
其中,MLP為多層感知機(jī)模型,wordt表示單詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國石油大學(xué)(華東),未經(jīng)中國石油大學(xué)(華東)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710806115.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





