[發明專利]一種基于深度神經網絡的移除圖像內臺標和字幕的方法有效
| 申請號: | 201811286931.7 | 申請日: | 2018-10-31 |
| 公開(公告)號: | CN109472260B | 公開(公告)日: | 2021-07-27 |
| 發明(設計)人: | 王煒;李杰;溫序銘;謝超平 | 申請(專利權)人: | 成都索貝數碼科技股份有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 成都弘毅天承知識產權代理有限公司 51230 | 代理人: | 李春霖 |
| 地址: | 610041 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 神經網絡 圖像 臺標 字幕 方法 | ||
1.一種基于深度神經網絡的移除圖像內臺標和字幕的方法,其特征在于,包括如下步驟:
S1、建立圖像修復模型:由類“U-net”網絡和GAN組成圖像修復模型,類“U-net”網絡作為GAN的Generator;
S2、訓練集圖像預處理:將訓練集中的圖像裁剪或縮放至限定大小,得到訓練圖像,根據下臺標和字幕所在區域,將訓練圖像劃分為區域1、區域2和區域3,其中區域1為臺標所在區域,區域2為字幕所在區域,并在區域1和區域2中分別對應生成Mask1和Mask2;
S3、處理訓練數據:將未經處理的訓練圖像作為真實圖像Pt;將訓練圖像中Mask1區域內的像素點RGB值置為0,作為訓練圖像P1;將訓練圖像中Mask2區域內的像素點RGB值置為0,作為訓練圖像P2;
S4、訓練圖像修復模型:分別將訓練圖像P1和訓練圖像P2輸入類“U-net”網絡中進行計算,得到各自的輸出圖像Pout,分別將輸出圖像Pout和真實圖像Pt劃分為Mask區和不變區兩部分,然后將輸出圖像Pout的Mask區與真實圖像Pt的不變區組合為組合圖像Pc;
將組合圖像Pc和輸出圖像Pout的Mask區拼接起來作為GAN中的判別器的輸入,基于真實圖像Pt、輸出圖像Pout和組合圖像Pc計算總偏差L,利用隨機梯度下降法對圖像修復模型的網絡參數進行訓練更新,直至判別器無法迭代;
再從訓練集中另外選取圖像,重復執行S2至S4,得到訓練好的圖像修復模型;
S5、圖像修復:將需要去除臺標和字幕的圖像或視頻預處理后,輸入訓練好的圖像修復模型中,將圖像修復模型輸出的圖像與原圖像結合,得到最終圖像輸出;
所述S4中類“U-net”網絡由卷積層和反卷積層構成,類“U-net”網絡對訓練圖像P1和訓練圖像P2的處理流程包括下采樣過程和上采樣過程,所述下采樣過程由步長為2的卷積核進行特征尺寸縮小,上采樣過程由步長為1/2的卷積核進行特征尺寸放大;所述類“U-net”網絡對訓練圖像P1和訓練圖像P2進行計算時,每一卷積和反卷積操作后都有一個ReLU激活函數。
2.根據權利要求1所述的一種基于深度神經網絡的移除圖像內臺標和字幕的方法,其特征在于,所述S4中的總偏差L由外部偏差L1、內部偏差L2、可感知偏差L3、風格偏差L4、內部間隔偏差L5和GAN判別式損失L6加權求和得到,
外部偏差L1為真實圖像Pt的不變區像素點與輸出圖像Pout的不變區像素點差異;
內部偏差L2為真實圖像Pt的Mask區像素點與輸出圖像Pout的Mask區像素點差異;
可感知偏差L3和風格偏差L4:將真實圖像Pt、輸出圖像Pout和組合圖像Pc輸入提前訓練好的用于計算偏差的VGGNet19模型,分別獲取真實圖像Pt、輸出圖像Pout和組合圖像Pc在VGGNet19模型中conv3_4、conv4_4和conv5_4層后的高層特征圖Pt(_3、_4、_5)、Pout(_3、_4、_5)和Pc(_3、_4、_5)共9張特征圖,由上述9張特征圖求得可感知偏差L3和風格偏差L4;
內部間隔偏差L5為輸出圖像Pout的Mask區像素矩陣中所有像素點與相應右鄰點的差值以及與相應下鄰點的差值的和;
GAN判別式損失L6:將輸出圖像Pout的Mask區縮放到與GAN網絡適配的尺寸,并將縮放后的Mask區與組合圖像Pc輸入GAN中,訓練GAN網絡,GAN的損失即為判別式損失。
3.根據權利要求2所述的一種基于深度神經網絡的移除圖像內臺標和字幕的方法,其特征在于,所述可感知偏差L3和風格偏差L4的計算具體為:
可感知偏差L3:計算Pc(_3、_4、_5)和Pt(_3、_4、_5)對應下角標的三組差值,計算Pout(_3、_4、_5)和Pt(_3、_4、_5)對應下角標的三組差值,將六組差值相加便得到可感知偏差L3;
風格偏差L4:計算Pout(_3、_4、_5)和Pt(_3、_4、_5)的自協方差矩陣,并計算Pout(_3、_4、_5)和Pt(_3、_4、_5)對應下角標的三組自協方差矩陣差值;計算Pc(_3、_4、_5)和Pt(_3、_4、_5)的自協方差矩陣,并計算Pc(_3、_4、_5)和Pt(_3、_4、_5)對應下角標的三組自協方差矩陣差值,將六組自協方差矩陣差值相加便得到風格偏差L4。
4.根據權利要求1所述的一種基于深度神經網絡的移除圖像內臺標和字幕的方法,其特征在于,所述S5具體包括如下步驟:
S5.1、視頻預處理:若需要去除臺標和字幕的是視頻,則解碼視頻內容,得到按幀分隔的視頻圖像;
S5.2、指定修補區域:人工或自動指定待處理圖像或視頻圖像中的待修補區域,裁剪出待處理圖像或視頻圖像中包含待修補區域的切片,裁剪出的切片大小與S2中的訓練圖像大小一致,并將待修補區域的像素點亮度值置為0,得到待修補切片;
S5.3、輸入圖像修復模型:將待修補切片輸入訓練好的圖像修復模型中,得到修復分片;
S5.4、輸出修復結果:將修復分片與S5.2中待處理圖像或視頻圖像中切片外的圖像結合,得到最終圖像輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都索貝數碼科技股份有限公司,未經成都索貝數碼科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811286931.7/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





