[發明專利]基于方向和尺度自適應卷積神經網絡的光場深度估計方法有效
| 申請號: | 201810317425.3 | 申請日: | 2018-04-10 |
| 公開(公告)號: | CN108846473B | 公開(公告)日: | 2022-03-01 |
| 發明(設計)人: | 周文暉;梁麟開;魏興明;周恩慈 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06T7/557 | 分類號: | G06T7/557;G06N3/04 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 方向 尺度 自適應 卷積 神經網絡 深度 估計 方法 | ||
1.基于方向和尺度自適應卷積神經網絡的光場深度估計方法,其特征在于包括如下步驟:
步驟1.準備光場數據集,制作訓練集和測試集;
步驟2.搭建方向和尺度自適應的卷積神經網絡SOA-EPN;
步驟3.使用訓練集訓練搭建好的SOA-EPN網絡;
步驟4.使用練好的SOA-EPN網絡在測試集上進行測試;
步驟1具體包括下述步驟:
步驟1-1:使用海德堡圖像處理實驗室提供的4D光場數據集作為實驗數據集,該數據集包含28個場景,并提供了高精度的視差和性能評估指標;每一個場景包含9行9列共81張大小為512×512的子光圈圖像;將上述28個場景分為兩部分,利用其中16個場景制作訓練集,12個場景制作測試集;
步驟1-2:將每一個4D光場場景定義為LF(s,t,x,y),其中(x,y)是圖像空間坐標系,(s,t)是角度坐標系;對于中心子光圈圖像LF(4,4,x,y)上的任一點P,提取P點的0°、45°、90°、135°四個方向的EPI圖像塊,EPI圖像塊高×寬×通道的大小為9×21×3,這四個EPI圖像塊構成了數據集的一個樣本,輸入到卷積神經網絡;
所述步驟2具體實現如下:
步驟2-1:搭建方向和尺度自適應的卷積神經網絡SOA-EPN;
所述的SOA-EPN由4個尺度感知網絡SAN構成;訓練集和測試集的每一個樣本包含四個EPI圖像塊,每一個所述的尺度感知網絡SAN是以其中1個EPI圖像塊作為輸入,預測輸出是該圖像塊中心點P的視差預測向量logiti,其中i=0,1,2,3,因此會得到4個視差預測向量,使用一個有229個神經元的全連接層將這4個視差預測向量進行融合得到一個最終視差;
將4個尺度感知網絡SAN進行權值共享,設定視差預測范圍是-4到4,將視差預測定義為一個分類任務,預測精度是0.035個像素,則可分為229類;
所述尺度感知網絡SAN一共18層,分為3個子網絡,具體如下:
(1)深度特征表征網絡,即第1到第8個卷積層:
該部分使用8個卷積核為2×2、步長為1×1的卷積層對輸入EPI圖像塊進行深度特征表征,對每個卷積層的輸出進行批歸一化處理,再使用ReLU函數對批歸一化的輸出結果進行激活;所述的8個卷積層中每個卷積層的輸出特征圖數量依次是(16,32,64,128,256,384,512,512),第8個卷積層輸出的張量記為x0,x0其大小為512×1×13,即512個大小為1×13的特征圖;
(2)尺度自適應選擇網絡,即第9到第16個卷積層:
尺度自適應選擇網絡SASN包含四個尺度選擇單元SSU,每個尺度選擇單元SSU由2個卷積核為1×2、步長為1×1的卷積層,一個切片操作和一個跳躍式連接組成;尺度自適應選擇網絡SASN的作用是改變SOA-EPN網絡的輸入EPI圖像塊的尺寸大小;SOA-EPN在第8個卷積層的感知域大小為9×9,而x0是尺寸為9×21的EPI圖像塊的深度特征,通過改變x0的尺度間接地改變輸入EPI圖像塊的尺寸,進而實現尺度自適應選擇功能;通過四次切片操作s(·)改變x0的尺寸,進而獲得尺寸為9×19、9×17、9×15、9×13的輸入EPI圖像塊的深度特征x1、x2、x3、x4,尺度自適應選擇功能具體來說就是在9×21、9×19、9×17、9×15、9×13五個尺寸中選擇一個或者是它們的某種組合,選擇的策略是在訓練SOA-EPN的過程學習得到的;其中SASN只以一張尺寸為9×21的EPI圖像塊作為輸入,通過尺度選擇單元SSU實現尺度自適應選擇,而不是輸入多張不同尺寸的EPI圖像塊;
第i個尺度選擇單元的輸出hi定義為:
其中,x0是尺寸為9×21的EPI圖像塊的深度特征,xi代表x1、x2、x3、x4;F(·)代表每一個尺度選擇單元SSU的2個卷積層的卷積操作;值得注意的是,xi的特征圖數量可能會小于F(hi-1)的特征圖數量,采用補0的方式使得xi和F(hi-1)的特征圖數量相等;s(·)是切片操作;
第9層和第10層是卷積核為1×2、步長為1×1的卷積層,它是第一個尺度選擇單元SSU的卷積操作;對每個卷積層的輸出進行批歸一化處理,再使用斜率為0.01的Leaky ReLU函數對批歸一化的輸出結果進行激活;所述的2個卷積層的輸出特征圖的數量依次是(576,576),第10個卷積層輸出576個大小為1×11的特征圖;
第11層和第12層是卷積核為1×2、步長為1×1的卷積層,它是第二個尺度選擇單元SSU的卷積操作;對每個卷積層的輸出進行批歸一化(BN)處理,再使用斜率為0.01的LeakyReLU函數對批歸一化的輸出結果進行激活;所述的2個卷積層的輸出特征圖的數量依次是(576,576),第12個卷積層輸出576個大小為1×9的特征圖;
第13層和第14層是卷積核為1×2、步長為1×1的卷積層,它是第三個尺度選擇單元SSU的卷積操作;對每個卷積層的輸出進行批歸一化處理,再使用斜率為0.01的Leaky ReLU函數對批歸一化的輸出結果進行激活;所述的2個卷積層的輸出特征圖的數量依次是(640,640),第14個卷積層輸出640個大小為1×7的特征圖;
第15層和第16層是卷積核為1×2、步長為1×1的卷積層,它是第四個尺度選擇單元SSU的卷積操作;對每個卷積層的輸出進行批歸一化處理,再使用斜率為0.01的Leaky ReLU函數對批歸一化的輸出結果進行激活;所述的2個卷積層的輸出特征圖的數量依次是(640,640),第16個卷積層輸出640個大小為1×5的特征圖;
(3)預測網絡,即第17、第18個全連接層:
第17層是擁有1024個神經元的全連接層,使用ReLU函數對該全連接層的輸出進行激活,使用Dropout技術處理ReLU函數的輸出,每一個神經元只有50%的概率參與計算;第17層的最終輸出是一個大小為1×1024的特征向量;
第18層是擁有229個神經元的全連接層,從而得到大小為1×229的視差預測向量logiti;
步驟2-2:使用多層交叉熵損失函數對SOA-EPN進行訓練,多層交叉熵損失函數如下:
其中,N是訓練集的一個批大小,wi是權重,||·||計算向量的L1距離,是真實視差概率向量;
所述步驟3具體實現如下:
從訓練集中隨機選取256個樣本作為一個批次輸入到SOA-EPN網絡,網絡預測輸出logiti,利用前面定義的多層交叉熵損失函數計算預測值logiti和真實值之間的誤差,進而使用反向傳播算法和梯度優化算法更新SOA-EPN網絡的參數;當Loss達到穩定值則完成訓練;
所述步驟4具體包括下述步驟:
從測試集中任取一個場景,提取該場景中心子光圈圖像上任一點P四個方向的EPI圖像塊,輸入到訓練好的SOA-EPN網絡,網絡輸出一個大小為229的概率向量logit4,將logit4中概率最大的類記為z,其概率記為a,比較z-1和z+1兩個類的概率并取概率較大的類記為s,其概率記為b;則P點的視差disp計算如下:
disp=[(a/(a+b))×z+(b/(a+b))×s]×0.035+offset,其中,offset為偏移參數,取值4;則P點的深度depth=Bf/disp,其中f是相機焦距,B是兩個相鄰子光圈的距離。
2.根據權利要求1所述的基于方向和尺度自適應卷積神經網絡的光場深度估計方法,其特征在于所述的切片操作s(·)是指沿寬度通道切除xi-1中每一個特征圖的兩端各一個神經元,進而得到xi-1的中心區域,也就是xi;具體來說,是尺寸為9×21的EPI圖像塊經過8個卷積層后輸出的特征圖;x0進行一次切片操作后得到x1,x1是尺寸為9×19的EPI圖像塊經過8個卷積層后輸出的特征圖;同理,x1進行一次切片操作后得到x2,x2是尺寸為9×17的EPI圖像塊經過8個卷積層后輸出的特征圖;以此類推,x0、x1、x2、x3、x4分別是9×21、9×19、9×17、9×15、9×13五個尺寸的EPI圖像塊的特征圖,尺寸依次是512×1×13、576×1×11、576×1×9、640×1×7、640×1×5。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810317425.3/1.html,轉載請聲明來源鉆瓜專利網。





