[發明專利]基于檢索話題記憶網絡的遙感圖像描述方法有效
| 申請號: | 201910407008.2 | 申請日: | 2019-05-16 |
| 公開(公告)號: | CN110287355B | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 盧孝強;王斌強;鄭向濤 | 申請(專利權)人: | 中國科學院西安光學精密機械研究所 |
| 主分類號: | G06F16/58 | 分類號: | G06F16/58;G06F40/216;G06F40/30;G06K9/62 |
| 代理公司: | 西安智邦專利商標代理有限公司 61211 | 代理人: | 唐沛 |
| 地址: | 710119 陜西省西*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 檢索 話題 記憶 網絡 遙感 圖像 描述 方法 | ||
1.一種基于檢索話題記憶網絡的遙感圖像描述方法,其特征在于,包括以下步驟:
1)選取高分圖像-文本數據庫;
2)對高分圖像-文本數據庫中標注文本進行話題提取;
2.1)利用詞性篩選的方式提取語義話題;
利用標準本文中單詞詞性不同,按照名詞,動詞,形容詞的排列順序,取前五個單詞作為語義話題;
2.2)利用計算詞頻-逆文檔頻率指數的方式提取統計話題;
2.2.1)計算高分圖像-文本數據庫中標注文本的詞頻-逆文檔頻率指數;
2.2.2)對計算出的所有詞頻-逆文檔頻率指數的進行從大到小的排序,選擇前五個單詞抽取出來作為統計話題;
2.3)將步驟2.1)提取的語義話題和步驟2.2)提取的統計話題進行話題表達;
2.3.1)利用高分圖像-文本數據庫中所有的標注文本構成原始字典;
2.3.2)在原始字典上添加描述文本的開始標志START和結束標志END,得到一個長度為c+2的實際表達字典;
2.3.3)基于語義話題和統計話題對應的單詞所在實際表達字典中的位置信息,使用one-hot向量進行話題表達;
3)利用深度神經網絡ResNet對高分圖像-文本數據庫當中的原始遙感圖像提取圖像特征;
3.1)給定原始遙感圖像,提取ResNet-101的pool5特征Ip5,維度是2048;
3.2)對步驟3.1)中的原始遙感圖像再次提取ResNet-101的pool5的前一層卷積特征Iconv,維度是2048×7×7;
3.3)將步驟3.2)提取到的特征Iconv經過reshape之后變換為2048×49的特征,將變換后的特征和步驟3.1)提取的特征Ip5拼接在一起,構成原始遙感圖像的圖像特征Iall,維度是2048×50;
4)對原始遙感圖像對應的標注文本進行標注文本表達;
利用步驟2.3.2)中生成的實際表達字典,對標注文本中的每個單詞進行one-hot向量表達,實現標注文本表達;
5)利用話題表達,圖像特征和標注文本表達來訓練話題記憶網絡;
5.1)構建話題記憶網絡模型;所述話題記憶網絡模型包括輸入模塊、中間模塊以及輸出模塊;
步驟5.1.1)創建輸入模塊;
輸入模塊包括圖像記憶單元和話題記憶單元;
圖像記憶單元包含一個矩陣,該矩陣大小為1024×50,存儲的內容為Iall經過全連接層之后降維到1024×50;
話題記憶單元包含一個矩陣,該矩陣大小為1024×10,存儲的是所述步驟2.3.3)所得到的話題表達經過兩個全連接層降維到1024×10;
步驟5.1.2)創建輸出模塊;
輸出模塊包括臨時記憶單元;臨時記憶單元包含一個大小為1024×25的矩陣,存儲的內容是在預測當前單詞的時候前一個單詞的預測輸出經過全連接層到1024的向量,其中25代表生成標注文本的最長長度;
步驟5.1.3)創建中間模塊;
圖像記憶單元、話題記憶單元以及臨時記憶單元經過獨立卷積之后最大池化得到輸出,從而中間模塊建立完成;
其中,卷積核大小為3×1,步長為1,通道數為300,最大池化的方向是通道方向,輸出結果是300×1;整體輸出為300×3;
5.2)將步驟2.3)得到的話題表達和3)得到的圖像特征作為輸入模塊的輸入,步驟4)得到的標注文本表達作為輸出模塊的輸出,訓練話題記憶網絡模型的參數;
步驟5.2.1)圖像記憶單元存儲步驟3)提取的圖像特征Iall經過全連接層之后降維到1024×50;
步驟5.2.2)話題記憶單元存儲步驟2.3)得到的話題表達經過兩個全連接層降維到1024×10;
步驟5.2.3)臨時記憶單元存儲一個文本開始輸出的標志START;
步驟5.2.4)用步驟4)中的one-hot表達方式表達START,然后經過兩個全連接層降維到1024;
再通過和步驟5.1.1)中的圖像記憶單元、話題記憶單元以及臨時記憶單元當中的等長的向量內積計算權重;
然后權重乘圖像記憶單元、話題記憶單元以及臨時記憶單元當中的內容當作步驟5.1.2)的輸入,得到輸出為300×3,經過reshape操作和全連接層得到預測的當前單詞;所述全連接層的神經元個數為實際表達字典的長度;
步驟5.2.5)將得到的當前單詞經過映射放入臨時記憶單元,同時代替步驟5.2.3)的START作為輸入,來預測下一個單詞;
步驟5.2.6)重復步驟5.2.1)至步驟5.2.5)利用標注文本中的單詞依次作為監督信息進行訓練,每次輸出存儲到臨時記憶單元直到遇到終止的標志END;
6)將任意一張原始遙感圖像輸入至訓練完成的話題記憶網絡模型,模型會輸出描述文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院西安光學精密機械研究所,未經中國科學院西安光學精密機械研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910407008.2/1.html,轉載請聲明來源鉆瓜專利網。





