[發(fā)明專利]一種基于空間金字塔池的多模態(tài)融合顯著性檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910858090.0 | 申請(qǐng)日: | 2019-09-11 |
| 公開(kāi)(公告)號(hào): | CN110705566B | 公開(kāi)(公告)日: | 2021-07-13 |
| 發(fā)明(設(shè)計(jì))人: | 周武杰;劉文宇;雷景生;錢亞冠;王海江;何成 | 申請(qǐng)(專利權(quán))人: | 浙江科技學(xué)院 |
| 主分類號(hào): | G06K9/46 | 分類號(hào): | G06K9/46;G06K9/62;G06T7/11;G06N3/04;G06N3/08 |
| 代理公司: | 寧波奧圣專利代理有限公司 33226 | 代理人: | 周玨 |
| 地址: | 310023 浙*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 空間 金字塔 多模態(tài) 融合 顯著 檢測(cè) 方法 | ||
1.一種基于空間金字塔池的多模態(tài)融合顯著性檢測(cè)方法,其特征在于包括訓(xùn)練階段和測(cè)試階段兩個(gè)過(guò)程;
所述的訓(xùn)練階段過(guò)程的具體步驟為:
步驟1_1:選取M幅原始的立體圖像的左視點(diǎn)圖像、深度圖像及真實(shí)人眼注視圖,并構(gòu)成訓(xùn)練集,將訓(xùn)練集中的第i幅原始的立體圖像的左視點(diǎn)圖像、深度圖像及真實(shí)人眼注視圖對(duì)應(yīng)記為{Di(x,y)}及{Yi(x,y)};然后采用獨(dú)熱編碼技術(shù)將訓(xùn)練集中的每幅原始的立體圖像的深度圖像處理成與對(duì)應(yīng)的左視點(diǎn)圖像一樣具有R通道分量、G通道分量和B通道分量;其中,M為正整數(shù),M≥200,原始的立體圖像的左視點(diǎn)圖像為RGB彩色圖像,i為正整數(shù),1≤i≤M,1≤x≤W,1≤y≤H,W表示原始的立體圖像的寬度,H表示原始的立體圖像的高度,表示中坐標(biāo)位置為(x,y)的像素點(diǎn)的像素值,Di(x,y)表示{Di(x,y)}中坐標(biāo)位置為(x,y)的像素點(diǎn)的像素值,Yi(x,y)表示{Yi(x,y)}中坐標(biāo)位置為(x,y)的像素點(diǎn)的像素值;
步驟1_2:構(gòu)建卷積神經(jīng)網(wǎng)絡(luò):卷積神經(jīng)網(wǎng)絡(luò)包括輸入層、隱層和輸出層,輸入層包括2個(gè)子輸入層,隱層包括10個(gè)神經(jīng)網(wǎng)絡(luò)塊、2個(gè)空間金字塔池多模態(tài)融合層、4個(gè)卷積層、3個(gè)反卷積層、3個(gè)過(guò)渡用卷積層,輸出層包括3個(gè)子輸出層;其中,第1個(gè)卷積層的卷積核數(shù)目為2048、卷積核大小為3×3、補(bǔ)零參數(shù)的值為1、步長(zhǎng)為1,第1個(gè)反卷積層的卷積核數(shù)目為2048、卷積核大小為4×4、補(bǔ)零參數(shù)的值為1、步長(zhǎng)為2,第2個(gè)卷積層的卷積核數(shù)目為1024、卷積核大小為3×3、補(bǔ)零參數(shù)的值為1、步長(zhǎng)為1,第2個(gè)反卷積層的卷積核數(shù)目為1024、卷積核大小為4×4、補(bǔ)零參數(shù)的值為1、步長(zhǎng)為2,第3個(gè)卷積層的卷積核數(shù)目為512、卷積核大小為3×3、補(bǔ)零參數(shù)的值為1、步長(zhǎng)為1,第3個(gè)反卷積層的卷積核數(shù)目為512、卷積核大小為4×4、補(bǔ)零參數(shù)的值為1、步長(zhǎng)為2,第4個(gè)卷積層的卷積核數(shù)目為256、卷積核大小為3×3、補(bǔ)零參數(shù)的值為1、步長(zhǎng)為1,第1個(gè)至第3個(gè)過(guò)渡用卷積層的卷積核數(shù)目均為1、卷積核大小均為3×3、補(bǔ)零參數(shù)的值均為1、步長(zhǎng)均為1;
對(duì)于輸入層:第1個(gè)子輸入層的輸入端接收一幅訓(xùn)練用左視點(diǎn)圖像的R通道分量、G通道分量和B通道分量,第1個(gè)子輸入層的輸出端輸出訓(xùn)練用左視點(diǎn)圖像的R通道分量、G通道分量和B通道分量給隱層;第2個(gè)子輸入層的輸入端接收對(duì)應(yīng)的訓(xùn)練用深度圖像經(jīng)獨(dú)熱編碼技術(shù)后處理成的R通道分量、G通道分量和B通道分量,第2個(gè)子輸入層的輸出端輸出訓(xùn)練用深度圖像的R通道分量、G通道分量和B通道分量給隱層;其中,要求訓(xùn)練用左視點(diǎn)圖像和訓(xùn)練用深度圖像的寬度為W、高度為H;
對(duì)于隱層:第1個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸入端接收第1個(gè)子輸入層的輸出端輸出的訓(xùn)練用左視點(diǎn)圖像的R通道分量、G通道分量和B通道分量,第1個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸出端輸出64幅寬度為且高度為的特征圖,將這64幅特征圖構(gòu)成的集合記為S1;第2個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸入端接收S1中的所有特征圖,第2個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸出端輸出128幅寬度為且高度為的特征圖,將這128幅特征圖構(gòu)成的集合記為S2;第3個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸入端接收S2中的所有特征圖,第3個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸出端輸出256幅寬度為且高度為的特征圖,將這256幅特征圖構(gòu)成的集合記為S3;第4個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸入端接收S3中的所有特征圖,第4個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸出端輸出512幅寬度為且高度為的特征圖,將這512幅特征圖構(gòu)成的集合記為S4;第5個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸入端接收S4中的所有特征圖,第5個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸出端輸出512幅寬度為且高度為的特征圖,將這512幅特征圖構(gòu)成的集合記為S5;對(duì)S3中的所有特征圖、S4中的所有特征圖和S5中的所有特征圖進(jìn)行Concat操作,將Concat操作后得到的所有特征圖構(gòu)成的集合記為C1,C1中包含有1280幅寬度為且高度為的特征圖;第1個(gè)空間金字塔池多模態(tài)融合層的輸入端接收C1中的所有特征圖,第1個(gè)空間金字塔池多模態(tài)融合層的輸出端輸出1280幅寬度為且高度為的特征圖,將這1280幅特征圖構(gòu)成的集合記為A1;第6個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸入端接收第2個(gè)子輸入層的輸出端輸出的訓(xùn)練用深度圖像的R通道分量、G通道分量和B通道分量,第6個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸出端輸出64幅寬度為且高度為的特征圖,將這64幅特征圖構(gòu)成的集合記為S6;第7個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸入端接收S6中的所有特征圖,第7個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸出端輸出128幅寬度為且高度為的特征圖,將這128幅特征圖構(gòu)成的集合記為S7;第8個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸入端接收S7中的所有特征圖,第8個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸出端輸出256幅寬度為且高度為的特征圖,將這256幅特征圖構(gòu)成的集合記為S8;第9個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸入端接收S8中的所有特征圖,第9個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸出端輸出512幅寬度為且高度為的特征圖,將這512幅特征圖構(gòu)成的集合記為S9;第10個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸入端接收S9中的所有特征圖,第10個(gè)神經(jīng)網(wǎng)絡(luò)塊的輸出端輸出512幅寬度為且高度為的特征圖,將這512幅特征圖構(gòu)成的集合記為S10;對(duì)S8中的所有特征圖、S9中的所有特征圖和S10中的所有特征圖進(jìn)行Concat操作,將Concat操作后得到的所有特征圖構(gòu)成的集合記為C2,C2中包含有1280幅寬度為且高度為的特征圖;第2個(gè)空間金字塔池多模態(tài)融合層的輸入端接收C2中的所有特征圖,第2個(gè)空間金字塔池多模態(tài)融合層的輸出端輸出1280幅寬度為且高度為的特征圖,將這1280幅特征圖構(gòu)成的集合記為A2;對(duì)A1中的所有特征圖和A2中的所有特征圖進(jìn)行Concat操作,將Concat操作后得到的所有特征圖構(gòu)成的集合記為C3,C3中包含有2560幅寬度為且高度為的特征圖;第1個(gè)卷積層的輸入端接收C3中的所有特征圖,第1個(gè)卷積層的輸出端輸出2048幅寬度為且高度為的特征圖,將這2048幅特征圖構(gòu)成的集合記為J1;第1個(gè)反卷積層的輸入端接收J(rèn)1中的所有特征圖,第1個(gè)反卷積層的輸出端輸出2048幅寬度為且高度為的特征圖,將這2048幅特征圖構(gòu)成的集合記為F1;第2個(gè)卷積層的輸入端接收F1中的所有特征圖,第2個(gè)卷積層的輸出端輸出1024幅寬度為且高度為的特征圖,將這1024幅特征圖構(gòu)成的集合記為J2;第2個(gè)反卷積層的輸入端接收J(rèn)2中的所有特征圖,第2個(gè)反卷積層的輸出端輸出1024幅寬度為且高度為的特征圖,將這1024幅特征圖構(gòu)成的集合記為F2;第3個(gè)卷積層的輸入端接收F2中的所有特征圖,第3個(gè)卷積層的輸出端輸出512幅寬度為且高度為的特征圖,將這512幅特征圖構(gòu)成的集合記為J3;第3個(gè)反卷積層的輸入端接收J(rèn)3中的所有特征圖,第3個(gè)反卷積層的輸出端輸出512幅寬度為W且高度為H的特征圖,將這512幅特征圖構(gòu)成的集合記為F3;第4個(gè)卷積層的輸入端接收F3中的所有特征圖,第4個(gè)卷積層的輸出端輸出256幅寬度為W且高度為H的特征圖,將這256幅特征圖構(gòu)成的集合記為J4;第1個(gè)過(guò)渡用卷積層的輸入端接收J(rèn)2中的所有特征圖,第1個(gè)過(guò)渡用卷積層的輸出端輸出1幅寬度為且高度為的特征圖;第2個(gè)過(guò)渡用卷積層的輸入端接收J(rèn)3中的所有特征圖,第2個(gè)過(guò)渡用卷積層的輸出端輸出1幅寬度為且高度為的特征圖;第3個(gè)過(guò)渡用卷積層的輸入端接收J(rèn)4中的所有特征圖,第3個(gè)過(guò)渡用卷積層的輸出端輸出1幅寬度為W且高度為H的特征圖;
第1個(gè)空間金字塔池多模態(tài)融合層和第2個(gè)空間金字塔池多模態(tài)融合層的結(jié)構(gòu)相同,它由第十四卷積層、第十四激活層、第一空洞卷積層、第十五激活層、第二空洞卷積層、第十六激活層、第三空洞卷積層、第十七激活層和第六最大池化層組成,第十四卷積層的輸入端、第一空洞卷積層的輸入端、第二空洞卷積層的輸入端、第三空洞卷積層的輸入端相連接,且其公共連接端為其所在的空間金字塔池多模態(tài)融合層的輸入端,第十四激活層的輸入端接收第十四卷積層的輸出端輸出的所有特征圖,第六最大池化層的輸入端接收第十四激活層的輸出端輸出的所有特征圖,第十五激活層的輸入端接收第一空洞卷積層的輸出端輸出的所有特征圖,第十六激活層的輸入端接收第二空洞卷積層的輸出端輸出的所有特征圖,第十七激活層的輸入端接收第三空洞卷積層的輸出端輸出的所有特征圖,對(duì)第十四激活層的輸出端輸出的所有特征圖、第六最大池化層的輸出端輸出的所有特征圖、第十五激活層的輸出端輸出的所有特征圖、第十六激活層的輸出端輸出的所有特征圖、第十七激活層的輸出端輸出的所有特征圖進(jìn)行Concat操作,將Concat操作后得到的所有特征圖作為所在的空間金字塔池多模態(tài)融合層的輸出端輸出的特征圖;其中,第十四卷積層的卷積核大小為1×1、補(bǔ)零參數(shù)的值為0、步長(zhǎng)為1,第十四激活層、第十五激活層、第十六激活層和第十七激活層的激活方式均為“Relu;第一空洞卷積層的卷積核大小為3×3、補(bǔ)零參數(shù)的值為2、膨脹率為2,第二空洞卷積層的卷積核大小為3×3、補(bǔ)零參數(shù)的值為6、膨脹率為6,第三空洞卷積層的卷積核大小為3×3、補(bǔ)零參數(shù)的值為12、膨脹率為12,第六最大池化層的池化尺寸為3、補(bǔ)零參數(shù)的值為1、步長(zhǎng)為1;
對(duì)于輸出層:第1個(gè)子輸出層的輸入端接收第1個(gè)過(guò)渡用卷積層的輸出端輸出的特征圖,第1個(gè)子輸出層的輸出端輸出其接收的特征圖,并作為第一顯著性檢測(cè)圖;第2個(gè)子輸出層的輸入端接收第2個(gè)過(guò)渡用卷積層的輸出端輸出的特征圖,第2個(gè)子輸出層的輸出端輸出其接收的特征圖,并作為第二顯著性檢測(cè)圖;第3個(gè)子輸出層的輸入端接收第3個(gè)過(guò)渡用卷積層的輸出端輸出的特征圖,第3個(gè)子輸出層的輸出端輸出其接收的特征圖,并作為第三顯著性檢測(cè)圖;
步驟1_3:將訓(xùn)練集中的每幅左視點(diǎn)圖像作為訓(xùn)練用左視點(diǎn)圖像,并將訓(xùn)練集中對(duì)應(yīng)的深度圖像作為訓(xùn)練用深度圖像;然后將訓(xùn)練用左視點(diǎn)圖像的R通道分量、G通道分量和B通道分量及訓(xùn)練用深度圖像的R通道分量、G通道分量和B通道分量輸入到卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到訓(xùn)練集中的每幅左視點(diǎn)圖像對(duì)應(yīng)的第一顯著性檢測(cè)圖、第二顯著性檢測(cè)圖、第三顯著性檢測(cè)圖;再將訓(xùn)練集中的所有左視點(diǎn)圖像對(duì)應(yīng)的第一顯著性檢測(cè)圖構(gòu)成的集合記為Kpre1,并將訓(xùn)練集中的所有左視點(diǎn)圖像對(duì)應(yīng)的第二顯著性檢測(cè)圖構(gòu)成的集合記為Kpre2,將訓(xùn)練集中的所有左視點(diǎn)圖像對(duì)應(yīng)的第三顯著性檢測(cè)圖構(gòu)成的集合記為Kpre3;
步驟1_4:對(duì)訓(xùn)練集中的每幅左視點(diǎn)圖像對(duì)應(yīng)的真實(shí)人眼注視圖進(jìn)行縮放處理,將縮放處理成的寬度為且高度為的圖像作為第一真實(shí)人眼注視圖,將縮放處理成的寬度為且高度為的圖像作為第二真實(shí)人眼注視圖;然后將訓(xùn)練集中的所有左視點(diǎn)圖像對(duì)應(yīng)的第一真實(shí)人眼注視圖構(gòu)成的集合記為Ktrue1,并將訓(xùn)練集中的所有左視點(diǎn)圖像對(duì)應(yīng)的第二真實(shí)人眼注視圖構(gòu)成的集合記為Ktrue2,將訓(xùn)練集中的所有左視點(diǎn)圖像對(duì)應(yīng)的真實(shí)人眼注視圖構(gòu)成的集合記為Ktrue3;再計(jì)算Kpre1與Ktrue1之間的損失函數(shù)值,記為L(zhǎng)oss1;并計(jì)算Kpre2與Ktrue2之間的損失函數(shù)值,記為L(zhǎng)oss2;計(jì)算Kpre3與Ktrue3之間的損失函數(shù)值,記為L(zhǎng)oss3;最后計(jì)算最終損失函數(shù)值,記為
步驟1_5:重復(fù)執(zhí)行步驟1_3和步驟1_4共N次,得到卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,并共得到N個(gè)最終損失函數(shù)值;然后從N個(gè)最終損失函數(shù)值中找出值最小的最終損失函數(shù)值;接著將最小的最終損失函數(shù)值對(duì)應(yīng)的權(quán)值矢量和偏置項(xiàng)對(duì)應(yīng)作為卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型的最優(yōu)權(quán)值矢量和最優(yōu)偏置項(xiàng),對(duì)應(yīng)記為ωbest和bbest;其中,N>1;
所述的測(cè)試階段過(guò)程的具體步驟為:
步驟2_1:將待顯著性檢測(cè)的立體圖像的左視點(diǎn)圖像和深度圖像對(duì)應(yīng)記為{Rtest,L(x',y')}和{Dtest(x',y')};然后采用獨(dú)熱編碼技術(shù)將{Dtest(x',y')}處理成與{Rtest,L(x',y')}一樣具有R通道分量、G通道分量和B通道分量;其中,1≤x'≤W',1≤y'≤H',W'表示待顯著性檢測(cè)的立體圖像的寬度,H'表示待顯著性檢測(cè)的立體圖像的高度,Rtest,L(x',y')表示{Rtest,L(x',y')}中坐標(biāo)位置為(x',y')的像素點(diǎn)的像素值,Dtest(x',y')表示{Dtest(x',y')}中坐標(biāo)位置為(x',y')的像素點(diǎn)的像素值;
步驟2_2:將{Rtest,L(x',y')}的R通道分量、G通道分量和B通道分量及{Dtest(x',y')}的R通道分量、G通道分量和B通道分量輸入到卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型中,并利用ωbest和bbest進(jìn)行預(yù)測(cè),得到待顯著性檢測(cè)的立體圖像對(duì)應(yīng)的顯著性檢測(cè)圖像,該顯著性檢測(cè)圖像的寬度為W'且高度為H'。
2.根據(jù)權(quán)利要求1所述的一種基于空間金字塔池的多模態(tài)融合顯著性檢測(cè)方法,其特征在于所述的步驟1_2中,第1個(gè)神經(jīng)網(wǎng)絡(luò)塊和第6個(gè)神經(jīng)網(wǎng)絡(luò)塊的結(jié)構(gòu)相同,其由依次設(shè)置的第一卷積層、第一激活層、第二卷積層、第二激活層、第一最大池化層組成,第一卷積層的輸入端為其所在的神經(jīng)網(wǎng)絡(luò)塊的輸入端,第一激活層的輸入端接收第一卷積層的輸出端輸出的所有特征圖,第二卷積層的輸入端接收第一激活層的輸出端輸出的所有特征圖,第二激活層的輸入端接收第二卷積層的輸出端輸出的所有特征圖,第一最大池化層的輸入端接收第二激活層的輸出端輸出的所有特征圖,第一最大池化層的輸出端為其所在的神經(jīng)網(wǎng)絡(luò)塊的輸出端;其中,第一卷積層和第二卷積層的卷積核數(shù)目均為64、卷積核大小均為3×3、補(bǔ)零參數(shù)的值均為1,第一激活層和第二激活層的激活方式均為“Relu”,第一最大池化層的池化尺寸為2、步長(zhǎng)為2;
第2個(gè)神經(jīng)網(wǎng)絡(luò)塊和第7個(gè)神經(jīng)網(wǎng)絡(luò)塊的結(jié)構(gòu)相同,其由依次設(shè)置的第三卷積層、第三激活層、第四卷積層、第四激活層、第二最大池化層組成,第三卷積層的輸入端為其所在的神經(jīng)網(wǎng)絡(luò)塊的輸入端,第三激活層的輸入端接收第三卷積層的輸出端輸出的所有特征圖,第四卷積層的輸入端接收第三激活層的輸出端輸出的所有特征圖,第四激活層的輸入端接收第四卷積層的輸出端輸出的所有特征圖,第二最大池化層的輸入端接收第四激活層的輸出端輸出的所有特征圖,第二最大池化層的輸出端為其所在的神經(jīng)網(wǎng)絡(luò)塊的輸出端;其中,第三卷積層和第四卷積層的卷積核數(shù)目均為128、卷積核大小均為3×3、補(bǔ)零參數(shù)的值均為1,第三激活層和第四激活層的激活方式均為“Relu”,第二最大池化層的池化尺寸為2、步長(zhǎng)為2;
第3個(gè)神經(jīng)網(wǎng)絡(luò)塊和第8個(gè)神經(jīng)網(wǎng)絡(luò)塊的結(jié)構(gòu)相同,其由依次設(shè)置的第五卷積層、第五激活層、第六卷積層、第六激活層、第七卷積層、第七激活層、第三最大池化層組成,第五卷積層的輸入端為其所在的神經(jīng)網(wǎng)絡(luò)塊的輸入端,第五激活層的輸入端接收第五卷積層的輸出端輸出的所有特征圖,第六卷積層的輸入端接收第五激活層的輸出端輸出的所有特征圖,第六激活層的輸入端接收第六卷積層的輸出端輸出的所有特征圖,第七卷積層的輸入端接收第六激活層的輸出端輸出的所有特征圖,第七激活層的輸入端接收第七卷積層的輸出端輸出的所有特征圖,第三最大池化層的輸入端接收第七激活層的輸出端輸出的所有特征圖,第三最大池化層的輸出端為其所在的神經(jīng)網(wǎng)絡(luò)塊的輸出端;其中,第五卷積層、第六卷積層和第七卷積層的卷積核數(shù)目均為256、卷積核大小均為3×3、補(bǔ)零參數(shù)的值均為1,第五激活層、第六激活層和第七激活層的激活方式均為“Relu”,第三最大池化層的池化尺寸為2、步長(zhǎng)為2;
第4個(gè)神經(jīng)網(wǎng)絡(luò)塊和第9個(gè)神經(jīng)網(wǎng)絡(luò)塊的結(jié)構(gòu)相同,其由依次設(shè)置的第八卷積層、第八激活層、第九卷積層、第九激活層、第十卷積層、第十激活層、第四最大池化層組成,第八卷積層的輸入端為其所在的神經(jīng)網(wǎng)絡(luò)塊的輸入端,第八激活層的輸入端接收第八卷積層的輸出端輸出的所有特征圖,第九卷積層的輸入端接收第八激活層的輸出端輸出的所有特征圖,第九激活層的輸入端接收第九卷積層的輸出端輸出的所有特征圖,第十卷積層的輸入端接收第九激活層的輸出端輸出的所有特征圖,第十激活層的輸入端接收第十卷積層的輸出端輸出的所有特征圖,第四最大池化層的輸入端接收第十激活層的輸出端輸出的所有特征圖,第四最大池化層的輸出端為其所在的神經(jīng)網(wǎng)絡(luò)塊的輸出端;其中,第八卷積層、第九卷積層和第十卷積層的卷積核數(shù)目均為512、卷積核大小均為3×3、補(bǔ)零參數(shù)的值均為1,第八激活層、第九激活層和第十激活層的激活方式均為“Relu”,第四最大池化層的池化尺寸為1、步長(zhǎng)為1;
第5個(gè)神經(jīng)網(wǎng)絡(luò)塊和第10個(gè)神經(jīng)網(wǎng)絡(luò)塊的結(jié)構(gòu)相同,其由依次設(shè)置的第十一卷積層、第十一激活層、第十二卷積層、第十二激活層、第十三卷積層、第十三激活層、第五最大池化層組成,第十一卷積層的輸入端為其所在的神經(jīng)網(wǎng)絡(luò)塊的輸入端,第十一激活層的輸入端接收第十一卷積層的輸出端輸出的所有特征圖,第十二卷積層的輸入端接收第十一激活層的輸出端輸出的所有特征圖,第十二激活層的輸入端接收第十二卷積層的輸出端輸出的所有特征圖,第十三卷積層的輸入端接收第十二激活層的輸出端輸出的所有特征圖,第十三激活層的輸入端接收第十三卷積層的輸出端輸出的所有特征圖,第五最大池化層的輸入端接收第十三激活層的輸出端輸出的所有特征圖,第五最大池化層的輸出端為其所在的神經(jīng)網(wǎng)絡(luò)塊的輸出端;其中,第十一卷積層、第十二卷積層和第十三卷積層的卷積核數(shù)目均為512、卷積核大小均為3×3、補(bǔ)零參數(shù)的值均為1,第十一激活層、第十二激活層和第十三激活層的激活方式均為“Relu”,第五最大池化層的池化尺寸為1、步長(zhǎng)為1。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江科技學(xué)院,未經(jīng)浙江科技學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910858090.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識(shí)別方法及裝置
- 一種基于多模態(tài)生成式對(duì)抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識(shí)別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





