[發(fā)明專利]一種基于模態(tài)變換與文本歸納的圖像描述生成方法有效
| 申請?zhí)枺?/td> | 201910357364.8 | 申請日: | 2019-04-29 |
| 公開(公告)號: | CN110033008B | 公開(公告)日: | 2023-08-04 |
| 發(fā)明(設(shè)計)人: | 王瀚漓;王含章 | 申請(專利權(quán))人: | 同濟大學(xué) |
| 主分類號: | G06V10/44 | 分類號: | G06V10/44;G06V10/774;G06V10/764;G06V10/82;G06N3/0464 |
| 代理公司: | 上海科盛知識產(chǎn)權(quán)代理有限公司 31225 | 代理人: | 翁惠瑜 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 變換 文本 歸納 圖像 描述 生成 方法 | ||
1.一種基于模態(tài)變換與文本歸納的圖像描述生成方法,其特征在于,該方法包括以下步驟:
1)使用基于卷積神經(jīng)網(wǎng)絡(luò)的目標識別模型,將待描述圖像劃分為多個基于感興趣區(qū)域的子塊,提取子塊的視覺特征;
2)使用第一長短時記憶模型對每個子塊的視覺特征進行解碼,通過將視覺信息轉(zhuǎn)換為語義信息實現(xiàn)模態(tài)變換,生成各子塊的文本描述;
3)使用第二長短時記憶模型對每個子塊的文本描述進行再編碼,提取各子塊的語義特征;
4)使用雙向?qū)蛹夐L短時記憶模型融合各子塊的語義特征,獲得融合語義特征;
5)以所述融合語義特征作為第三長短時記憶模型的輸入,生成待描述圖像的文本描述;
所述步驟1)具體包括:
對圖像進行大小縮放后輸入卷積神經(jīng)網(wǎng)絡(luò),提取視覺特征,計算各候選框置信度;
選擇置信度最高前n個候選框作為感興趣區(qū)域,形成子塊,保存各子塊的視覺特征及框位置信息;
所述步驟4)具體為:
按所述置信度由高到低對各子塊進行排序;
將排序后各子塊的語義特征依次作為雙向?qū)蛹夐L短時記憶模型各時間步的輸入;
將最后一個時間步的前向輸出與后向輸出取均值作為各子塊描述的融合語義特征;
所述第一長短時記憶模型的構(gòu)建過程包括:
21)構(gòu)建LSTM網(wǎng)絡(luò)中的LSTM單元,其中:
ht=Ot⊙Tanh(ct)
其中,w和b為待訓(xùn)練參數(shù),xt為當前時刻t的輸入,ht-1為上一時刻t-1的隱層特征,i為輸入門,f為遺忘門,o為輸出門,c為記憶信息,σ和Tanh為激活函數(shù);
22)獲取數(shù)據(jù)集中描述參考句子的平均長度,并設(shè)置每層LSTM的時間步長度為16,隱層單元個數(shù)為512;
23)對單詞表中的每個單詞采用One-Hot方式進行編碼,編碼維度為單詞表的長度,對于MSCOCO數(shù)據(jù)集,單詞表長度為10020;
24)將描述參考句子中每個單詞的One-Hot編碼映射為一個嵌入式向量,并設(shè)置向量維度為512;
所述第二長短時記憶模型、雙向?qū)蛹夐L短時記憶模型和第三長短時記憶模型訓(xùn)練的步驟包括:
31)將MSCOCO數(shù)據(jù)集分為訓(xùn)練集和測試集;
32)使用交叉熵函數(shù)計算網(wǎng)絡(luò)輸出的每個單詞與實際值之間的誤差,并對每張圖像中生成句子的每個單詞與所有參考句子中單詞的誤差進行求和,具體表示為:
其中,為全體實數(shù)集合,O為最優(yōu)參數(shù)集合,θ1為CNN網(wǎng)絡(luò)參數(shù)集合,θ2為LSTM網(wǎng)絡(luò)參數(shù)集合,X2為圖像描述數(shù)據(jù)集中的輸入圖像,S為與X2對應(yīng)的描述參考句子;
則系統(tǒng)目標為迭代優(yōu)化(θ1,θ2),使得損失函數(shù)最小,其中系統(tǒng)損失函數(shù)表示為:
θ1為CNN網(wǎng)絡(luò)參數(shù)集合,θ2為LSTM網(wǎng)絡(luò)參數(shù)集合,X2為圖像描述數(shù)據(jù)集中的輸入圖像,S為與X2對應(yīng)的描述參考句子,f表示系統(tǒng)函數(shù),為損失函數(shù),N2為訓(xùn)練LSTM網(wǎng)絡(luò)時,一次迭代中所使用的樣本總數(shù),Lk為第k個樣本所對應(yīng)的參考句子的長度,為第k張圖像對應(yīng)的描述參考句子的第t個單詞,為生成的第k張圖像的第t個單詞,為輸入的第k張圖像,為第k張圖像的參考句子的第t-1個單詞;
33)使用鏈式法則逐層計算誤差,并將其回傳至整個模型的底層,采用梯度下降的算法,對參數(shù)進行更新;
其中α表示學(xué)習(xí)率;
34)將誤差回傳到CNN網(wǎng)絡(luò)中,將每條句子中每個單詞的誤差進行求和,并逐層向前傳遞,完成優(yōu)化。
2.根據(jù)權(quán)利要求1所述的基于模態(tài)變換與文本歸納的圖像描述生成方法,其特征在于,所述文本描述中,每個單詞采用One-Hot方式進行編碼。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同濟大學(xué),未經(jīng)同濟大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910357364.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





