[發明專利]一種高分辨率可見光遙感圖像中的艦船檢測深度學習方法有效
| 申請號: | 201810721881.4 | 申請日: | 2018-07-04 |
| 公開(公告)號: | CN108960143B | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 史振威;周敏;賀廣均;鄒征夏;雷森 | 申請(專利權)人: | 北京航空航天大學;北京衛星信息工程研究所 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 北京慧泉知識產權代理有限公司 11232 | 代理人: | 王順榮;唐愛華 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 高分辨率 可見光 遙感 圖像 中的 艦船 檢測 深度 學習方法 | ||
1.一種高分辨率可見光遙感圖像中的艦船檢測深度學習方法,其特征在于:所述方法分為粗檢測和精檢測兩個階段,粗檢測獲得目標候選區域,利用特征變換層對目標候選區域進行變換,增強特征對于艦船形變的魯棒性,從而提升對候選目標的區分能力,改善檢測效果;具體步驟如下:
步驟一:讀入圖像數據,根據遷移學習方法對圖像進行預處理;使用的數據均來源于谷歌地球,分辨率1~2米,尺寸均為600×800;將圖像讀入內存后,根據遷移學習方法對圖像進行減均值處理;遷移學習,指卷積神經網絡在大型數據集上進行訓練,具有一定特征提取能力后,在針對其他圖像訓練集或其他任務時,不再采用對網絡參數隨機初始化的方式,而是將上述訓練得到的模型參數作為網絡提取特征層的參數初始值,然后再進行模型微調;采用在ImageNet數據集上訓練得到的VGG-16模型,該模型在訓練過程中對數據進行了減均值處理;將訓練好的VGG-16模型遷移到艦船檢測任務時也應對圖像進行相同的減均值預處理;
步驟二:將圖像送入卷積神經網絡的淺層進行特征提??;
卷積神經網絡對圖像進行特征提取時,是通過卷積層、池化層、非線性激活層的反復組合完成的;下面分別對這三種網絡層級結構進行簡要介紹;
卷積層是卷積神經網絡的重要特點之一;
卷積神經網絡是在多層感知機的基礎上發展而來的,多層感知機間各結點之間采用的是全連接方式,即下一層的每一個結點都與上一層的所有結點存在連接即有權重值,層間結點無連接;這種全連接的方式導致多層感知機具有諸多缺點,一方面網絡不能感知圖像中局部區域之間的強相關性,另一方面圖像中的目標會出現位移、大小尺寸變化、角度變化的各種變形,而全連接中的各個神經元都具有特異性,因此為了能夠對圖像中目標的各種形變具有一定魯棒性,就需要大量的訓練樣本,而龐大的訓練樣本既難以收集得到,也難以加以訓練;此外,當網絡層數加深或神經元結點增多時,多層感知機的參數會急劇增加,網絡容易過擬合;
卷積神經網絡采用了局部感受野、權值共享的策略;局部感受野,即卷積神經網絡的神經元間的連接變為非全連接的;權值共享,則指的是卷積神經網絡中某些神經元共享連接權值,從而它們具有相同的連接權值;在局部感受野、權值共享的策略下,卷積神經網絡便采用了卷積層代替了原來的全連接層,一個卷積層中含有多種卷積核,一種卷積核的參數則是一系列共享參數的神經元與前層不同結點分別進行部分連接時的權重值,卷積層輸出的結果則被稱為特征圖,因為采用卷積的形式后,該層的輸出能保持輸入圖像各像素間的位置關系,所以其輸出為一張圖的形式,而非一個向量;設一卷積層的輸入為Zi,其中一種卷積核的權重矩陣為W,該卷積核對應的特征圖為Zi+1,則有:
Zi+1=W*Zi
池化層,其作用是在于降低網絡對目標位置變化的敏感性,同時縮小特征圖、減少網絡參數,以增強網絡的泛化能力;池化層的作用機制是將其輸入圖進行分塊,再對每個圖像塊進行聚合統計;將其輸入特征圖分為一個2×2大小的互不重疊的小塊,將每個小圖像塊縮為一個值,取其最大值或平局值,從而池化層的輸出特征圖大小是輸入特征圖的
非線性激活層,即為了在網絡中引入非線性、增強網絡的擬合能力,而在網絡中增加的非線性層,每添加一層卷積層,就會在網絡中增加一個非線性激活層;采用的非線性激活函數為折頁函數,其表達式如下所示,當自變量小于0時,輸出為0;折頁函數形式的非線性激活函數,能夠增強網絡的稀疏性,同時更有利于網絡的優化;
以上各層中具有參數的只有卷積層,訓練時通過梯度方向傳播的方式對該層進行優化;
步驟三:通過卷積層提取出圖像的抽象特征后,通過錨點機制和兩個小型全卷積得到目標候選區域;
具體地,錨點是一系列預先設置的具有不同長寬比、大小尺寸的矩形框,通過錨點機制完成在圖像上滑窗采樣,繼而通過對采樣框的分類與位置回歸完成對目標的檢測;以步驟二中用于提取特征的最后一個卷積層的特征圖為基準設置錨點;即以該特征圖上的每一個像素在原輸入圖中的感受野中心為中心,分別設置大小為42×42、72×72、128×128三種尺寸大小的正方形錨點;
在通過錨點機制采樣得到一系列窗口后,通過兩個小型全卷積分別對這些窗口進行分類和位置回歸;全卷積網絡是僅有一系列的卷積層、非線性激活層以一定順序搭建而成的;全卷積網絡是由卷積神經網絡發展而來的,一個完整的卷積神經網絡包含卷積層、非線性激活層、全連接層,且最后若干層為全連接層,輸出為一維的標簽信息;全卷積網絡則去除了全連接層,輸出與輸入相同,均是二維圖像;其核心思想是將傳統卷積神經網絡中的全連接層用卷積核大小為1×1的卷積層替代,從而輸出能很好地保留輸入圖像中的空間信息;
在檢測網絡中,用于分類的全卷積網絡作用為判別每個窗口是否為目標,采用的輸出函數是一個兩分類的softmax函數,其函數表達式如下式所示:
其中,j=1,2,...,K,K為維數;zj為輸入向量的第j個元素,σ(zj)為對應的輸出向量的第j個元素;
從而,對于每個窗口都有一個對應的二維向量,分別對應為其類別是背景或目標的概率;設置閾值為0.5,則認為目標概率大于0.5的窗口為目標候選區域;
用于位置回歸的全卷積網絡的作用則為修正目標候選區域的位置或尺寸大小,以使其更接近于真實目標的位置和尺寸;在檢測中,用緊包圍盒來框住目標,用于描述包圍盒在圖像中的位置和尺寸只需要四個變量,即包圍盒左上角的圖像坐標和包圍盒的長寬;從而,對于每一個窗口,用于位置回歸的全卷積網絡的輸出為一個四維向量,為方便網絡學習,該四維向量的各元素分別采取如下形式:
其中,x′、y′、w′、h′分別是目標包圍盒的左上角坐標和長寬,x、y、w、h分別是對應窗口的左上角坐標和長寬;
相應地,在訓練過程中,損失函數分為分類和位置回歸兩部分,具體形式如下式所示:
其中,i表示對第i個窗口,為總損失函數,分別為分類、位置回歸的損失函數;λ為調節參數,用于平衡分類和位置回歸在損失函數中所占的比例,I{·}為指示函數,僅在括號內命題為真時取1,否則取0;Lcls采用的是交叉熵損失函數,Lreg采用的是平滑L1函數,具體如下式所示:
其中,u,v分別為分類的標簽與預測概率,u采用的是獨熱編碼形式;s,t分別為位置回歸的標簽與預測值;函數的具體形式為:
步驟四:通過步驟三得到目標候選區域后,提取目標候選區域的特征,并用感興趣區域池化層規范化輸出特征圖尺寸;
此處采用共享特征的方式以減少計算,即根據目標候選區域的位置與特征提取網絡的步長,在對圖像提取的整體特征圖上找到目標候選區域對應的特征塊;具體地,采用的VGG-16網絡中的conv5_3層的步長為16個像素,因此,假設一個目標候選區域的左上角坐標為(x,y),長寬分別為h和w,則該目標候選區域在特征圖上對應的圖像塊的左上角坐標為長寬分別為和
接著,特征塊還需經過感興趣區域池化層,以形成該目標候選區域的最終特征;目標候選區域的尺寸是各異的,在特征圖上得到的對應特征塊的尺寸也是各異的,但在精檢測階段對目標候選區域進行再確認時,使用的是全連接結構,要求輸入的特征具有固定的維度,所以需要感興趣區域池化層以統一目標候選區域的特征維度;
感興趣區域池化層與普通池化層的差別在于步長與池化尺寸的設置;普通池化層采取步長、池化尺寸固定的形式,對輸入圖像進行等比例的尺寸縮放,因此輸出圖像的尺寸隨輸入圖像尺寸的變化而變化;為保證輸出圖像尺寸固定,感興趣區域池化層取消了對步長、池化尺寸的限制;假設感興趣區域池化層的輸出固定為ho·wo,該層的輸入特征圖大小為hi·wi,則其池化尺寸為:
其中,感興趣區域池化層的輸出固定為7×7;
步驟五:將特征送入全連接層得到空間變換參數,然后將空間變換參數與特征送入空間變換層,得到形變校正后的特征;
空間變換層的的作用在于通過網絡挖掘特征圖或圖像的形變特點,得到變形參數,根據這些參數對特征圖或圖像進行相應反變換,從而得到更適于分類的特征圖或圖像;其中采用的具體網絡構架如下所述:
首先,將一個全連接層作用于特征圖,輸出為一個六維向量,即空間變換參數;
然后,空間變換層根據空間變換參數確定輸出特征圖中每個像素在原特征圖中對應的采樣點,再對采樣點與周圍像素進行線性插值,插值結果即為輸出特征圖上相應像素的值;
假設(xs,ys)、(xt,yt)是一對分別來自原特征圖和變換后特征圖的像素點,Aθ為空間變換參數矩陣,則其位置關系由下式確定:
設定輸出特征圖大小與輸入特征圖大小相同,通過上式對輸出圖中每個像素找到原圖中的對應采樣點,從而插值得到輸出特征圖中各像素值;
步驟六:直接采用全連接層,根據校正后的特征對目標候選區域進行再次分類和位置修正。
2.根據權利要求1所述的一種高分辨率可見光遙感圖像中的艦船檢測深度學習方法,其特征在于:步驟一中所述的在ImageNet數據集上訓練的過程如下:采用四步訓練法,S11,初步訓練粗檢測網絡得到目標候選區域,以得到精檢測網絡訓練數據集,此步采用在ImageNet數據上訓練得到的VGG16網絡對特征提取層進行參數初始化;S12,訓練精檢測網絡,仍采用在ImageNet數據上訓練得到的VGG16網絡對特征提取層進行參數初始化;S13,微調粗檢測網絡,將步驟S12微調得到的特征提取層參數固定,微調僅屬于粗檢測網絡部分的層,并再次生成目標候選區域;S14,微調僅屬于精檢測網絡部分的層,得到最終模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學;北京衛星信息工程研究所,未經北京航空航天大學;北京衛星信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810721881.4/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





