[發(fā)明專利]一種文本圖像超分辨率方法有效
| 申請?zhí)枺?/td> | 202110614954.1 | 申請日: | 2021-06-02 |
| 公開(公告)號: | CN113256494B | 公開(公告)日: | 2022-11-11 |
| 發(fā)明(設(shè)計)人: | 趙才榮;馮舒揚 | 申請(專利權(quán))人: | 同濟大學(xué) |
| 主分類號: | G06T3/40 | 分類號: | G06T3/40;G06T7/10;G06T7/181;G06V10/77;G06V10/82;G06N3/04 |
| 代理公司: | 上海科律專利代理事務(wù)所(特殊普通合伙) 31290 | 代理人: | 葉鳳 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 圖像 分辨率 方法 | ||
一種文本圖像超分辨率方法,包括以下步驟:1)圖像預(yù)處理:由灰度圖像均值將灰度圖像二值化得到文字蒙版,將文字蒙版(M)疊加到圖像上,得到RGBM的四通道低分辨率?高分辨率圖像對;2)模型訓(xùn)練:低分辨率RGBM被送入網(wǎng)絡(luò),首先經(jīng)過文本矯正模塊的處理;緊接著,利用矯正后的特征統(tǒng)一構(gòu)建視覺上下文,這個部分由稠密連接的五個并行正交上下文注意力模塊(PCAB)組成;然后,每個PCAB模塊的輸出被統(tǒng)一合并到一起,進一步在這些特征上構(gòu)建正交紋理感知注意力,自適應(yīng)加權(quán)那些對重建高頻信息有較大影響的特征;最后,經(jīng)過兩倍上采樣和一次卷積,得到最終尺寸為4*(2H)*(2W)的輸出超分辨率RGBM圖像。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機視覺領(lǐng)域。
背景技術(shù)
近年來,場景文本理解在計算機視覺任務(wù)中扮演著十分重要的角色。然而,自然環(huán)境下苛刻的成像條件(低分辨率、抖動等)往往阻礙了這些領(lǐng)域的進展。由于成像過程中景深變化較大,低分辨率文本圖像比比皆是,同時低分辨率圖像中文本的形狀和輪廓經(jīng)常是模糊的,這對場景文本理解無疑是巨大的挑戰(zhàn)。
場景文本超分辨率可以有效地緩解上述問題,超分出來的圖像可以顯著的提升文字識別算法的準(zhǔn)確率?,F(xiàn)有的工作大多只是將通用超分辨率算法應(yīng)用于文本超分任務(wù),較少的針對文本圖像的上下文特性提出新的解決方案。同一張圖像中,前景文本字符之間通常具有相似的紋理、顏色以及筆畫特性。文字的邊緣輪廓信息是比較具有辨識力的高頻信息。因此,有必要針對上述特點提出新的文本超分辨率算法。
如何找出一種方法高效的提取視覺特征的上下文信息,同時能夠自適應(yīng)的重建高頻信息是一項較為值得研究的問題。而深度學(xué)習(xí)的動機恰恰在于編碼特征空間,讓網(wǎng)絡(luò)自適應(yīng)的尋找上述信息的最優(yōu)解,用這樣的機制來解釋數(shù)據(jù)。因此使用深度學(xué)習(xí)的方法來進行文本圖像超分辨率成為可能。
專利CN 110415176 A提出了一種基于深度學(xué)習(xí)的文本圖像超分辨率方法。此方法的目標(biāo)是針對文檔圖像進行超分辨率,使用深度空域特征轉(zhuǎn)換生成對抗網(wǎng)絡(luò)(SFTGAN)對文本前景進行超分辨率,使用增強超分生成對抗網(wǎng)絡(luò)(ESRGAN)對文檔背景進行超分辨率操作,最后再將二者進行融合得到文檔圖像的超分辨率結(jié)果。這種方法在場景圖像上不具備通用性,并且沒有針對文本的特點建模上下文關(guān)系,僅使用了現(xiàn)有的通用超分辨率模型,因此難以在真實場景上取得較好的效果。
發(fā)明內(nèi)容
本發(fā)明目的在于克服上述現(xiàn)有技術(shù)存在的缺陷,提供了一種文本圖像超分辨率方法。
技術(shù)方案
一種文本圖像超分辨率方法,其特征在于,采用平行雙分支結(jié)構(gòu)捕捉視覺上下文信息,并且自適應(yīng)加權(quán)特征重建文本高頻信息;
包括以下步驟:
1)圖像預(yù)處理:由灰度圖像均值將灰度圖像二值化得到文字蒙版,將文字蒙版(M)疊加到圖像上,得到RGBM的四通道低分辨率-高分辨率圖像對;
2)模型訓(xùn)練:低分辨率RGBM被送入網(wǎng)絡(luò),首先經(jīng)過文本矯正模塊的處理,這個模塊為文字識別的通用模塊,用在文本超分辨率上主要是為了調(diào)整像素之間的偏移,使得網(wǎng)絡(luò)優(yōu)化的時候能夠自適應(yīng)對齊;緊接著,矯正后的特征將統(tǒng)一構(gòu)建視覺上下文,這個部分由稠密連接的五個并行正交上下文注意力模塊(PCAB)組成,并行正交上下文注意力模塊旨在捕獲視覺特征之間垂直和水平兩組正交方向上的特征依賴關(guān)系,從而促進模型生成具有辨識力的超清圖像;構(gòu)建完視覺上下文以后的特征,即每個PCAB模塊的輸出被統(tǒng)一合并到一起,進一步在這些特征上構(gòu)建正交紋理感知注意力,旨在提升網(wǎng)絡(luò)編碼高頻信息的能力,自適應(yīng)加權(quán)那些對重建高頻信息有較大影響的特征;最后,經(jīng)過兩倍上采樣和一次卷積,得到最終尺寸為4*(2H)*(2W)的輸出超分辨率RGBM圖像;針對網(wǎng)絡(luò)的訓(xùn)練,本方法提出了用邊緣引導(dǎo)損失函數(shù)(自研)輔助L2損失函數(shù),以起到更好的圖像超分辨率效果。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同濟大學(xué),未經(jīng)同濟大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110614954.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





