[發明專利]一種基于深度學習的圖像目標摳取方法有效
| 申請號: | 201810649490.6 | 申請日: | 2018-06-22 |
| 公開(公告)號: | CN109035267B | 公開(公告)日: | 2021-07-27 |
| 發明(設計)人: | 全紅艷;沈卓薈 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06T7/12 | 分類號: | G06T7/12;G06N3/04;G06N3/08 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 圖像 目標 方法 | ||
1.一種基于深度學習的圖像目標摳取方法,其特征在于,該方法輸入圖像分辨率為Nt×Nt,其Nt為224、448或者896,具體包括以下步驟:
步驟1:構建合成圖像集SC
(a)前景圖像數據集的構建
從pngimg.com網站收集N張png格式的前景圖像,其中20000≤N≤30000,要包含人物、動物、前景物體各種類別;從其中篩選前景圖像Nc張,3810≤Nc≤N,要求所述篩選前景圖像必須是拍攝得到的自然圖像,并保持類別數種;
利用選出的Nc張圖像構建前景圖像數據集SF:其中是其中的第k+1張圖像;
(b)背景圖像數據集構建
從SUN2012數據集篩選NB張背景圖像,2182≤NB≤5000,構建背景圖像集合是其中的背景圖像,要求其不包含前景物體,并且要確保選取的背景圖像類別要涵蓋SUN2012的各個種類;
(c)合成圖像:在[0,NB-1]之間生成隨機的背景圖像序號RB,從背景圖像集合SB中按照RB取出隨機的背景圖像再在[0,Nc-1]之間生成1個隨機的前景圖像序號RF,從前景圖像集合SF中按照RF取出隨機前景圖像(2)疊加圖像,對于的裁剪或縮放處理:如果的水平或垂直尺度小于Nt,通過圖像縮放功能將圖像在該維度分辨率放大到Nt;否則,如果水平或垂直尺度大于Nt,那么在空域范圍內,隨機裁剪出分辨率為Nt×Nt的背景塊,記為
產生前景圖像縮放因子s∈[0.7,1.0],將縮放到新的分辨率s*Nt×s*Nt,結果記為再將覆蓋到上,兩幅圖像中心對齊,覆蓋合成后得到前景與背景的疊加圖像IS;利用的第4通道信息進行生成掩模,第4通道如果為透明狀態時,標記為0,表示背景區域像素;當第4通道為非透明狀態時,標記為1,表示前景區域像素,這樣就得到前景掩模圖像IM;利用IS和IM創建一個4通道的圖像Iin作為網絡的輸入數據;
進一步按照上述方法生成NF組數據,其中3162≤NF≤10000;
步驟2:構建自然圖像數據集SN
利用數據集MSRA10k,篩選出具有明確前景物體目標的自然圖像NS張,其中2017≤NS≤10000,并將它們縮放為Nt×Nt分辨率,并構建自然圖像數據集SN;
步驟3:利用SC和SN構建訓練數據集ST
利用SC和SN的并集構建ST,ST=SC∪SN;
步驟4:構建神經網絡
神經網絡的整體結構由低分辨率子網絡U-NetL和高分辨率子網絡U-NetH相連接構成;
(a)U-NetL的結構
將Iin進行下采樣得到分辨率(Nt/2)×(Nt/2)的圖像,進一步構建形狀為(Nt/2)×(Nt/2)×3的張量,作為U-NetL的輸入,U-NetL輸出為掩模圖像,張量形狀為(Nt/2)×(Nt/2)×1;
U-NetL基于U-Net構建,在U-Net的Lt層卷積神經網絡架構基礎,去掉頭尾兩個子結構,編碼器及解碼器均采用Lt-1個子結構,如果Nt為224,Lt為5;如果Nt為448,Lt為6;如果Nt為896,Lt為7;
編碼器除Lt-1個子結構,額外附加的一個卷積層構成,每個子結構包含兩個卷積層與一個最大池化層;卷積層均采用3×3的卷積核,卷積步長為1,每個卷積層的輸出均進行批歸一化處理,使用Leaky Relu函數進行激活,最大池化層的池化窗口大小為2×2;Lt-1個子結構中,第1個子結構的兩個卷積層中卷積核個數都是64,輸出特征圖尺度為56×56;后面各層子結構卷積核個數增加一倍,輸出特征圖尺度減少一半,最后通過額外附加的卷積層編碼,通道數為1024;
解碼器由Lt-1個子結構和一個額外附加的卷積層構成,每個子結構都包含一個上采樣層與2個卷積層,每個子結構中卷積層的卷積核個數相同,上采樣層的采樣窗口大小為2×2;解碼器子結構中,第1個子結構的兩個卷積層中卷積核個數都是512,輸出特征圖尺度為14×14;后面各層子結構的卷積核個數減半,輸出特征圖尺度增加一倍;通過Lt-1個子結構,將編碼器輸出的特征圖尺度還原至(Nt/2)×(Nt/2),通道數為64;
在編碼器和解碼器之后使用一個卷積層Le,Le采用1×1的1個卷積核,該卷積輸出端連接一個Sigmoid激活層,獲取為0至1之間的浮點數輸出,最后得到(Nt/2)×(Nt/2)×1的低分辨率的掩模輸出圖像;
編碼器與解碼器之間進行跨層連接,即每個編碼器中的卷積層都與解碼器中相同尺寸的卷積層進行逐通道連接,并作為下一層卷積層的輸入:即編碼器第1層與解碼器第Lt-2層輸入特征圖連接,作為解碼器第Lt-1個卷積層的輸入;同樣地,編碼器第2層與解碼器第Lt-3層連接,作為解碼器第Lt-2層的輸入,按照此方式進行跨層連接;
(b)U-NetH的結構
U-NetH輸入張量形狀為(Nt/2)×(Nt/2)×3,輸出為摳取的結果圖像,張量形狀為Nt×Nt×3;
U-NetH基于U-Net的卷積神經網絡構建,編碼器及解碼器均Lt層:編碼器由Lt個子結構相繼連接,編碼器的最后一個子結構連接一個附加的卷積層;對于初始圖像作卷積前邊界填補零處理,第1個子結構中卷積核個數為32,輸出特征圖尺度為(Nt/2)×(Nt/2);后面各層子結構卷積核個數增加一倍,輸出特征圖尺度減少一半,最后加上額外的卷積層,得到來自1024個核的特征,通道數為1024;
解碼器同樣由Lt個子結構和一個額外附加的卷積層構成,將編碼器輸出的特征圖,逐步還原至Nt×Nt的尺度:第1個子結構中卷積核個數為1024,輸出特征圖尺度為14×14;后面各層子結構卷積核個數減少,輸出特征圖分辨率增加一倍,第Lt子結構中卷積核個數為64,輸出特征圖尺度為Nt×Nt,最后使用一個卷積層生成最終的網絡輸出,該卷積層采用1個1×1的卷積核,得到形狀為Nt×Nt的特征圖像;在解碼器的輸出端連接一個Sigmoid激活層,確保輸出0至1之間的浮點數,最后得到Nt×Nt×1的輸出圖像;
編碼器與解碼器之間進行跨層連接,即每個編碼器中的卷積層與解碼器中相同尺寸的卷積層進行逐通道連接,并作為下一卷積層的輸入:即編碼器第1層與解碼器第Lt-1層輸入特征圖連接,作為解碼器第Lt個卷積層的輸入;同樣地,編碼器第2層與解碼器第Lt-2層連接,作為解碼器第Lt-1層的輸入,按照這樣方式進行跨層連接;
(c)U-NetL與U-NetH的連接
將U-NetL輸出的掩模圖像結合U-NetH子結構2的輸出,一并輸入到U-NetH子結構3中,以實現U-NetL與U-NetH的連接;
步驟5:神經網絡的訓練
在數據集SC和SN各隨機取2000幅圖像,構成4000幅混合圖像數據集,將該混合圖像數據集劃分為訓練數據、評估數據與測試數據:3600、200、200幅圖像;其中訓練數據用于網絡訓練,評估數據用于在訓練過程中計算評價指標,測試數據用于對訓練的網絡模型進行性能測試;
在網絡訓練階段中,將構建的訓練數據作為網絡訓練的輸入,首先訓練U-NetL,訓練完畢后,將U-NetL的輸出加入U-NetH的對應特征圖中,再進行U-NetH的訓練;
U-NetL與U-NetH訓練時,均采用如下交并比損失函數進行控制:
Yt表示網絡輸出的掩模圖像中第t個像素的通道數據,Gt表示目標圖像的第t個像素掩模的真實值;H表示圖像中像素的個數,U-NetL訓練時,H為(Nt/2)×(Nt/2),U-NetH訓練時,H為Nt×Nt;
步驟6:對輸入圖像進行目標摳取
使用訓練得到的網絡模型,在自然圖像數據集上進行圖像摳取結果的預測;預測過程分為低分辨率預測和高分辨率預測,最終得到前景摳圖的結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810649490.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種利用普通攝像完成身份證便攜掃描的方法
- 下一篇:一種自適應圖像分割方法
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





