[發明專利]一種基于場景預分類的光學遙感圖像語句描述生成方法有效
| 申請號: | 201911155068.6 | 申請日: | 2019-11-22 |
| 公開(公告)號: | CN110991284B | 公開(公告)日: | 2022-10-18 |
| 發明(設計)人: | 史振威;馬小鋒;趙睿;陳科研;張寧;韓傳釗;章泉源;朱新忠;張瑞玨 | 申請(專利權)人: | 北京航空航天大學;上海航天電子通訊設備研究所 |
| 主分類號: | G06V20/13 | 分類號: | G06V20/13;G06V10/774;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京慧泉知識產權代理有限公司 11232 | 代理人: | 李娜;王順榮 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 場景 分類 光學 遙感 圖像 語句 描述 生成 方法 | ||
本發明公開一種基于場景預分類的光學遙感圖像語句描述生成方法,技術核心是將語句描述生成任務與場景預分類任務進行聯合優化,從而提升模型的數據域適應性。該方法包含四個步驟:步驟一:制作數據集;步驟二:搭建網絡模型;步驟三:分步訓練網絡模型;步驟四:遙感圖像語句描述生成。本發明克服了現有技術的不足,很好地解決了遙感圖像語句描述模型與遙感數據域的適應性問題,自動化程度和語句描述內容準確度均較高,具有廣闊的應用前景和巨大的使用價值。
技術領域
本發明涉及一種基于場景預分類的光學遙感圖像語句描述生成方法,屬于光學遙感圖像語句描述自動生成技術領域。
背景技術
遙感(remote sensing)可以分為主動遙感和被動遙感,前者通過發射和回收信號來成像,而后者通過接收地物反射的太陽光來成像,光學遙感(optical remote sensing)一般指后者,指在紫外波段和紅外波段的范圍內,通過探測儀器遠距離獲取地物信息的技術。目前,光學遙感技術一般依靠星載和機載傳感器來探測地物目標,受拍攝設備高度、拍攝角度以及傳感器精度的影響,獲取到的圖像數據在分辨率、覆蓋地物尺度等多個方面表現出不同于自然圖像的特點,對相關處理技術有著更高的要求。光學遙感圖像在民事和軍事應用中均具有重要的作用,民事上主要用于氣象預報、土地普查以及災害評估等方面,軍事上主要用于導彈預警、戰場監測等方面。
圖像語句描述生成(image caption)是指計算機通過分析輸入圖像的語義內容,包括場景、目標以及目標之間的關系,之后自動生成一句描述圖像內容的語句的技術。相比于目標檢測、圖像分割等傳統圖像處理技術,該技術可以實現圖像到描述語句的映射,功能上更接近人類的行為表現,具有更加廣闊的應用場景,包括圖像檢索,智能交互以及情報自動生成等多個方面。其技術實現在數據集構建、模型搭建以及訓練和測試等多個方面面臨更大的困難和挑戰。
卷積神經網絡(convolutional neural network)是近年來發展非常迅速的神經網絡模型之一,該網絡在處理圖像數據時具有天然的優勢,解決了網絡龐大臃腫、難以訓練以及泛化能力差等諸多問題,在圖像分類比賽中屢創佳績,以ImageNet數據集分類任務為例,人類的Top5 error分類精度大致在5%到10%之間,自從2015年深度殘差網絡(residual neural network)提出之后,計算機的分類精度已經超越人類。在圖像語句描述生成任務中,如何使用卷積神經網絡提取高質的圖像語義表示,仍是目前研究面臨的一大難點。
循環神經網絡(recurrent neural network)是處理序列數據最有效的神經網絡模型,在語句生成任務中應用廣泛。由于該模型在訓練時存在梯度消失的問題,后經改進,變身為長短時記憶模型(long short-term memory,LSTM),LSTM通過設計遺忘門、輸入門以及輸出門解決了梯度消失問題。目前在圖像語句描述生成模型中,一般采用LSTM或其變體來生成描述圖像的語句結果。
注意力機制(attention mechanism)是指人腦通過注意力聚焦來重點關注某一部分信息的機制,基于該機制構建的注意力模塊在圖像語句描述生成模型中扮演著重要的角色,該模塊可以幫助模型在生成語句的單詞時與圖像進行語義對齊,從而得到更準確的描述結果。現有的注意力模塊主要包括空間注意力模塊、自適應注意力模塊兩種,本發明在此基礎上提出了一種3D注意力結構,這種設計更適用于處理尺度不一的光學遙感圖像數據。
場景分類(scene classification)技術是指計算機根據輸入的圖像判定圖像所屬場景類別的技術。由于光學遙感圖像與自然圖像相比,通常一張遙感圖像只包含一種地物場景,如港口、山區等,對其進行場景分類有助于圖像語句描述生成模型獲取更加準確的語義信息,從而減輕語句生成部分的學習壓力,進而得到一種更適合于光學遙感圖像語句生成的模型。本發明就是基于這種思想,將場景分類任務與語句描述生成任務進行多任務聯合,搭建了一種基于場景預分類的光學遙感圖像語句描述生成模型,與領域內其它模型相比,該模型具有出色的性能表現。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學;上海航天電子通訊設備研究所,未經北京航空航天大學;上海航天電子通訊設備研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911155068.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種顯示裝置及其顯示方法
- 下一篇:模具及其制備方法、電池蓋及其制備方法





