[發明專利]基于MASK和自動編碼器的場景復雜文本圖像編輯方法有效
| 申請號: | 202110347033.3 | 申請日: | 2021-03-31 |
| 公開(公告)號: | CN113052759B | 公開(公告)日: | 2023-03-21 |
| 發明(設計)人: | 許勇;余博西;黃艷 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06T3/00 | 分類號: | G06T3/00;G06T11/60;G06N3/0455;G06N3/0464;G06N3/09 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李君 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 mask 自動 編碼器 場景 復雜 文本 圖像編輯 方法 | ||
1.基于MASK和自動編碼器的場景復雜文本圖像編輯方法,其特征在于,包括以下步驟:
通過數據獲取模塊獲取MASK數據集,基于MASK數據集構建訓練集;
對訓練集進行預處理,并將預處理后的訓練集中隨機選取圖像作為網絡輸入;
進行網絡特征提取,即對預處理后的訓練集圖像進行初步特征提取,得到初步特征,將初步特征輸入包含若干個殘差模塊的復合殘差網絡中進行處理,得到多層次特征;
對圖像進行重構,即將多層次特征進行拼接,并進行卷積層處理得到三通道圖像,即MASK;
使用三通道圖像對殘差模塊的輸出在神經網絡的訓練進行監督,進而優化網絡參數;
所述進行網絡特征提取,即對預處理后的訓練集圖像進行初步特征提取,得到初步特征,將初步特征輸入包含若干個殘差模塊的復合殘差網絡中進行處理,得到多層次特征,具體為:將預處理后的含文本自然場景圖片輸入自動編碼器,自動編碼器提出包含文本位置和形狀信息的MASK,即初步特征;將所述MASK與原本輸入場景中的含文本自然場景圖片組成多通道的Tensor(張量),將其輸入自動編碼器并提取信息,即得到多層次特征;
所述自動編碼器包括六個自動編碼器模塊,每個自動編碼器模塊的輸出作為另外一個自動編碼器模塊的輸入;
所述自動編碼器包括六個自動編碼器模塊,具體包括:
第一自動編碼器模塊,第一自動編碼器模塊由三個下采樣編碼器、三個上采樣編碼器以及U-Net結構組成;第一自動編碼器模塊輸入的圖像Is為場景中的文本圖像;
第二自動編碼器模塊,與第一自動編碼器模塊結構相同,輸入為Is、Omask1的concatenation,通道數為六通道,輸出為不帶文本的背景Ob;
第三自動編碼器模塊,與第一自動編碼器模塊結構相同,輸入為Is、Omask1的concatenation,通道數為六通道,輸出為只有文本的圖片Ot1;
第四自動編碼器模塊,用于完成字體形態的變換,將標準的字體變換為具有原圖像Is中文本部分的字體風格;
第五自動編碼器模塊,將Omask1和Ot1進行連接之后作為輔助信息注入該模塊的自動編碼器中間的網絡層,從而指導字體紋理的渲染;
第六自動編碼器模塊,通道數為九通道,將干凈的背景Ob、目標字MASK、目標字的字效作為輸入進入該模塊的自動編碼器,該自動編碼器與第一自動編碼器模塊具有相同的結構;該編碼器的最終輸出Ot為最終目標;完成了原圖像Is中的文本替換,并且保留文本和背景的風格特征。
2.根據權利要求1所述的基于MASK和自動編碼器的場景復雜文本圖像編輯方法,其特征在于,所述對訓練集進行預處理,具體為:
隨機選取訓練數據集的圖像對,將圖像進行變換;
隨機切取圖像對,得到64*128大小的圖像塊;
將圖像對進行正則化處理,得到預處理后的訓練集中隨機選取圖像;對于輸入圖像I,則有:
Inorm=I/255,
其中,Inorm為歸一化后的圖像。
3.根據權利要求1所述的基于MASK和自動編碼器的場景復雜文本圖像編輯方法,其特征在于,所述對圖像進行重構,即將多層次特征進行拼接,并進行卷積層處理得到三通道圖像,具體為:將每個殘差模塊的輸出特征進行拼接后,輸入到一個卷積層后得到三通道圖像,取這個三通道圖像為最終的復原圖像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110347033.3/1.html,轉載請聲明來源鉆瓜專利網。





