[發(fā)明專(zhuān)利]一種基于殘差網(wǎng)絡(luò)和深度信息融合的顯著性檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910444775.0 | 申請(qǐng)日: | 2019-05-27 |
| 公開(kāi)(公告)號(hào): | CN110263813B | 公開(kāi)(公告)日: | 2020-12-01 |
| 發(fā)明(設(shè)計(jì))人: | 周武杰;吳君委;雷景生;何成;錢(qián)亞冠;王海江;張偉 | 申請(qǐng)(專(zhuān)利權(quán))人: | 浙江科技學(xué)院 |
| 主分類(lèi)號(hào): | G06K9/62 | 分類(lèi)號(hào): | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 寧波奧圣專(zhuān)利代理事務(wù)所(普通合伙) 33226 | 代理人: | 周玨 |
| 地址: | 310023 浙*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 網(wǎng)絡(luò) 深度 信息 融合 顯著 檢測(cè) 方法 | ||
1.一種基于殘差網(wǎng)絡(luò)和深度信息融合的顯著性檢測(cè)方法,其特征在于包括訓(xùn)練階段和測(cè)試階段兩個(gè)過(guò)程;
所述的訓(xùn)練階段過(guò)程的具體步驟為:
步驟1_1:選取Q幅原始的彩色真實(shí)物體圖像及每幅原始的彩色真實(shí)物體圖像對(duì)應(yīng)的深度圖像和真實(shí)顯著性檢測(cè)標(biāo)簽圖像,并構(gòu)成訓(xùn)練集,將訓(xùn)練集中的第q幅原始的彩色真實(shí)物體圖像及其對(duì)應(yīng)的深度圖像和真實(shí)顯著性檢測(cè)標(biāo)簽圖像對(duì)應(yīng)記為{Iq(i,j)}、{Dq(i,j)}、其中,Q為正整數(shù),Q≥200,q為正整數(shù),q的初始值為1,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}、{Dq(i,j)}、的寬度,H表示{Iq(i,j)}、{Dq(i,j)}、的高度,W和H均能夠被2整除,{Iq(i,j)}為RGB彩色圖像,Iq(i,j)表示{Iq(i,j)}中坐標(biāo)位置為(i,j)的像素點(diǎn)的像素值,{Dq(i,j)}為單通道的深度圖像,Dq(i,j)表示{Dq(i,j)}中坐標(biāo)位置為(i,j)的像素點(diǎn)的像素值,表示中坐標(biāo)位置為(i,j)的像素點(diǎn)的像素值;
步驟1_2:構(gòu)建卷積神經(jīng)網(wǎng)絡(luò):該卷積神經(jīng)網(wǎng)絡(luò)包含輸入層、隱層、輸出層,輸入層包括RGB圖輸入層和深度圖輸入層,隱層包括5個(gè)RGB圖神經(jīng)網(wǎng)絡(luò)塊、4個(gè)RGB圖最大池化層、5個(gè)深度圖神經(jīng)網(wǎng)絡(luò)塊、4個(gè)深度圖最大池化層、5個(gè)級(jí)聯(lián)層、5個(gè)融合神經(jīng)網(wǎng)絡(luò)塊、4個(gè)反卷積層,輸出層包括5個(gè)子輸出層;其中,5個(gè)RGB圖神經(jīng)網(wǎng)絡(luò)塊和4個(gè)RGB圖最大池化層構(gòu)成RGB圖的編碼結(jié)構(gòu),5個(gè)深度圖神經(jīng)網(wǎng)絡(luò)塊和4個(gè)深度圖最大池化層構(gòu)成深度圖的編碼結(jié)構(gòu),RGB圖的編碼結(jié)構(gòu)和深度圖的編碼結(jié)構(gòu)構(gòu)成卷積神經(jīng)網(wǎng)絡(luò)的編碼層,5個(gè)級(jí)聯(lián)層、5個(gè)融合神經(jīng)網(wǎng)絡(luò)塊和4個(gè)反卷積層構(gòu)成卷積神經(jīng)網(wǎng)絡(luò)的譯碼層;
對(duì)于RGB圖輸入層,其輸入端接收一幅訓(xùn)練用RGB彩色圖像的R通道分量、G通道分量和B通道分量,其輸出端輸出訓(xùn)練用RGB彩色圖像的R通道分量、G通道分量和B通道分量給隱層;其中,要求訓(xùn)練用RGB彩色圖像的寬度為W且高度為H;
對(duì)于深度圖輸入層,其輸入端接收RGB圖輸入層的輸入端接收的訓(xùn)練用RGB彩色圖像對(duì)應(yīng)的訓(xùn)練用深度圖像,其輸出端輸出訓(xùn)練用深度圖像給隱層;其中,訓(xùn)練用深度圖像的寬度為W且高度為H;
對(duì)于第1個(gè)RGB圖神經(jīng)網(wǎng)絡(luò)塊,其輸入端接收RGB圖輸入層的輸出端輸出的訓(xùn)練用RGB彩色圖像的R通道分量、G通道分量和B通道分量,其輸出端輸出32幅寬度為W且高度為H的特征圖,將輸出的所有特征圖構(gòu)成的集合記為CP1;
對(duì)于第1個(gè)RGB圖最大池化層,其輸入端接收CP1中的所有特征圖,其輸出端輸出32幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為ZC1;
對(duì)于第2個(gè)RGB圖神經(jīng)網(wǎng)絡(luò)塊,其輸入端接收Z(yǔ)C1中的所有特征圖,其輸出端輸出64幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為CP2;
對(duì)于第2個(gè)RGB圖最大池化層,其輸入端接收CP2中的所有特征圖,其輸出端輸出64幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為ZC2;
對(duì)于第3個(gè)RGB圖神經(jīng)網(wǎng)絡(luò)塊,其輸入端接收Z(yǔ)C2中的所有特征圖,其輸出端輸出128幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為CP3;
對(duì)于第3個(gè)RGB圖最大池化層,其輸入端接收CP3中的所有特征圖,其輸出端輸出128幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為ZC3;
對(duì)于第4個(gè)RGB圖神經(jīng)網(wǎng)絡(luò)塊,其輸入端接收Z(yǔ)C3中的所有特征圖,其輸出端輸出256幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為CP4;
對(duì)于第4個(gè)RGB圖最大池化層,其輸入端接收CP4中的所有特征圖,其輸出端輸出256幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為ZC4;
對(duì)于第5個(gè)RGB圖神經(jīng)網(wǎng)絡(luò)塊,其輸入端接收Z(yǔ)C4中的所有特征圖,其輸出端輸出256幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為CP5;
對(duì)于第1個(gè)深度圖神經(jīng)網(wǎng)絡(luò)塊,其輸入端接收深度圖輸入層的輸出端輸出的訓(xùn)練用深度圖像,其輸出端輸出32幅寬度為W且高度為H的特征圖,將輸出的所有特征圖構(gòu)成的集合記為DP1;
對(duì)于第1個(gè)深度圖最大池化層,其輸入端接收DP1中的所有特征圖,其輸出端輸出32幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為DC1;
對(duì)于第2個(gè)深度圖神經(jīng)網(wǎng)絡(luò)塊,其輸入端接收DC1中的所有特征圖,其輸出端輸出64幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為DP2;
對(duì)于第2個(gè)深度圖最大池化層,其輸入端接收DP2中的所有特征圖,其輸出端輸出64幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為DC2;
對(duì)于第3個(gè)深度圖神經(jīng)網(wǎng)絡(luò)塊,其輸入端接收DC2中的所有特征圖,其輸出端輸出128幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為DP3;
對(duì)于第3個(gè)深度圖最大池化層,其輸入端接收DP3中的所有特征圖,其輸出端輸出128幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為DC3;
對(duì)于第4個(gè)深度圖神經(jīng)網(wǎng)絡(luò)塊,其輸入端接收DC3中的所有特征圖,其輸出端輸出256幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為DP4;
對(duì)于第4個(gè)深度圖最大池化層,其輸入端接收DP4中的所有特征圖,其輸出端輸出256幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為DC4;
對(duì)于第5個(gè)深度圖神經(jīng)網(wǎng)絡(luò)塊,其輸入端接收DC4中的所有特征圖,其輸出端輸出256幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為DP5;
對(duì)于第1個(gè)級(jí)聯(lián)層,其輸入端接收CP5中的所有特征圖和DP5中的所有特征圖,對(duì)CP5中的所有特征圖和DP5中的所有特征圖進(jìn)行疊加,其輸出端輸出512幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為Con1;
對(duì)于第1個(gè)融合神經(jīng)網(wǎng)絡(luò)塊,其輸入端接收Con1中的所有特征圖,其輸出端輸出256幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為RH1;
對(duì)于第1個(gè)反卷積層,其輸入端接收RH1中的所有特征圖,其輸出端輸出256幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為FJ1;
對(duì)于第2個(gè)級(jí)聯(lián)層,其輸入端接收FJ1中的所有特征圖、CP4中的所有特征圖和DP4中的所有特征圖,對(duì)FJ1中的所有特征圖、CP4中的所有特征圖和DP4中的所有特征圖進(jìn)行疊加,其輸出端輸出768幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為Con2;
對(duì)于第2個(gè)融合神經(jīng)網(wǎng)絡(luò)塊,其輸入端接收Con2中的所有特征圖,其輸出端輸出256幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為RH2;
對(duì)于第2個(gè)反卷積層,其輸入端接收RH2中的所有特征圖,其輸出端輸出256幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為FJ2;
對(duì)于第3個(gè)級(jí)聯(lián)層,其輸入端接收FJ2中的所有特征圖、CP3中的所有特征圖和DP3中的所有特征圖,對(duì)FJ2中的所有特征圖、CP3中的所有特征圖和DP3中的所有特征圖進(jìn)行疊加,其輸出端輸出512幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為Con3;
對(duì)于第3個(gè)融合神經(jīng)網(wǎng)絡(luò)塊,其輸入端接收Con3中的所有特征圖,其輸出端輸出128幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為RH3;
對(duì)于第3個(gè)反卷積層,其輸入端接收RH3中的所有特征圖,其輸出端輸出128幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為FJ3;
對(duì)于第4個(gè)級(jí)聯(lián)層,其輸入端接收FJ3中的所有特征圖、CP2中的所有特征圖和DP2中的所有特征圖,對(duì)FJ3中的所有特征圖、CP2中的所有特征圖和DP2中的所有特征圖進(jìn)行疊加,其輸出端輸出256幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為Con4;
對(duì)于第4個(gè)融合神經(jīng)網(wǎng)絡(luò)塊,其輸入端接收Con4中的所有特征圖,其輸出端輸出64幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為RH4;
對(duì)于第4個(gè)反卷積層,其輸入端接收RH4中的所有特征圖,其輸出端輸出64幅寬度為W且高度為H的特征圖,將輸出的所有特征圖構(gòu)成的集合記為FJ4;
對(duì)于第5個(gè)級(jí)聯(lián)層,其輸入端接收FJ4中的所有特征圖、CP1中的所有特征圖和DP1中的所有特征圖,對(duì)FJ4中的所有特征圖、CP1中的所有特征圖和DP1中的所有特征圖進(jìn)行疊加,其輸出端輸出128幅寬度為W且高度為H的特征圖,將輸出的所有特征圖構(gòu)成的集合記為Con5;
對(duì)于第5個(gè)融合神經(jīng)網(wǎng)絡(luò)塊,其輸入端接收Con5中的所有特征圖,其輸出端輸出32幅寬度為W且高度為H的特征圖,將輸出的所有特征圖構(gòu)成的集合記為RH5;
對(duì)于第1個(gè)子輸出層,其輸入端接收RH1中的所有特征圖,其輸出端輸出2幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為Out1,Out1中的其中一幅特征圖為顯著性檢測(cè)預(yù)測(cè)圖;
對(duì)于第2個(gè)子輸出層,其輸入端接收RH2中的所有特征圖,其輸出端輸出2幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為Out2,Out2中的其中一幅特征圖為顯著性檢測(cè)預(yù)測(cè)圖;
對(duì)于第3個(gè)子輸出層,其輸入端接收RH3中的所有特征圖,其輸出端輸出2幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為Out3,Out3中的其中一幅特征圖為顯著性檢測(cè)預(yù)測(cè)圖;
對(duì)于第4個(gè)子輸出層,其輸入端接收RH4中的所有特征圖,其輸出端輸出2幅寬度為且高度為的特征圖,將輸出的所有特征圖構(gòu)成的集合記為Out4,Out4中的其中一幅特征圖為顯著性檢測(cè)預(yù)測(cè)圖;
對(duì)于第5個(gè)子輸出層,其輸入端接收RH5中的所有特征圖,其輸出端輸出2幅寬度為W且高度為H的特征圖,將輸出的所有特征圖構(gòu)成的集合記為Out5,Out5中的其中一幅特征圖為顯著性檢測(cè)預(yù)測(cè)圖;
步驟1_3:將訓(xùn)練集中的每幅原始的彩色真實(shí)物體圖像作為訓(xùn)練用RGB彩色圖像,將訓(xùn)練集中的每幅原始的彩色真實(shí)物體圖像對(duì)應(yīng)的深度圖像作為訓(xùn)練用深度圖像,輸入到卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到訓(xùn)練集中的每幅原始的彩色真實(shí)物體圖像對(duì)應(yīng)的5幅顯著性檢測(cè)預(yù)測(cè)圖,將{Iq(i,j)}對(duì)應(yīng)的5幅顯著性檢測(cè)預(yù)測(cè)圖構(gòu)成的集合記為
步驟1_4:對(duì)訓(xùn)練集中的每幅原始的彩色真實(shí)物體圖像對(duì)應(yīng)的真實(shí)顯著性檢測(cè)標(biāo)簽圖像進(jìn)行4種不同尺寸大小的縮放處理,得到寬度為且高度為的圖像、寬度為且高度為的圖像、寬度為且高度為的圖像、寬度為且高度為的圖像,將{Iq(i,j)}對(duì)應(yīng)的真實(shí)顯著性檢測(cè)標(biāo)簽圖像經(jīng)縮放處理后得到的4幅圖像和該真實(shí)顯著性檢測(cè)標(biāo)簽圖像構(gòu)成的集合記為
步驟1_5:計(jì)算訓(xùn)練集中的每幅原始的彩色真實(shí)物體圖像對(duì)應(yīng)的5幅顯著性檢測(cè)預(yù)測(cè)圖構(gòu)成的集合與該原始的彩色真實(shí)物體圖像對(duì)應(yīng)的真實(shí)顯著性檢測(cè)標(biāo)簽圖像經(jīng)縮放處理后得到的4幅圖像和該真實(shí)顯著性檢測(cè)標(biāo)簽圖像構(gòu)成的集合之間的損失函數(shù)值,將與之間的損失函數(shù)值記為采用分類(lèi)交叉熵獲得;
步驟1_6:重復(fù)執(zhí)行步驟1_3至步驟1_5共V次,得到卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,并共得到Q×V個(gè)損失函數(shù)值;然后從Q×V個(gè)損失函數(shù)值中找出值最小的損失函數(shù)值;接著將值最小的損失函數(shù)值對(duì)應(yīng)的權(quán)值矢量和偏置項(xiàng)對(duì)應(yīng)作為卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型的最優(yōu)權(quán)值矢量和最優(yōu)偏置項(xiàng),對(duì)應(yīng)記為Wbest和bbest;其中,V>1;
所述的測(cè)試階段過(guò)程的具體步驟為:
步驟2_1:令表示待顯著性檢測(cè)的彩色真實(shí)物體圖像,將對(duì)應(yīng)的深度圖像記為其中,1≤i'≤W',1≤j'≤H',W'表示和的寬度,H'表示和的高度,表示中坐標(biāo)位置為(i',j')的像素點(diǎn)的像素值,表示中坐標(biāo)位置為(i',j')的像素點(diǎn)的像素值;
步驟2_2:將的R通道分量、G通道分量和B通道分量以及輸入到卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型中,并利用Wbest和bbest進(jìn)行預(yù)測(cè),得到對(duì)應(yīng)的5幅不同尺寸大小的預(yù)測(cè)顯著性檢測(cè)圖像,將尺寸大小與的尺寸大小一致的預(yù)測(cè)顯著性檢測(cè)圖像作為對(duì)應(yīng)的最終預(yù)測(cè)顯著性檢測(cè)圖像,并記為其中,表示中坐標(biāo)位置為(i',j')的像素點(diǎn)的像素值。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于浙江科技學(xué)院,未經(jīng)浙江科技學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910444775.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:汽車(chē)線(xiàn)束護(hù)套分類(lèi)方法及系統(tǒng)
- 下一篇:基于動(dòng)態(tài)聚類(lèi)趨勢(shì)分析的增量聚類(lèi)數(shù)據(jù)挖掘方法
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線(xiàn)網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





