[發明專利]一種文本圖像超分辨率方法有效
| 申請號: | 202110614954.1 | 申請日: | 2021-06-02 |
| 公開(公告)號: | CN113256494B | 公開(公告)日: | 2022-11-11 |
| 發明(設計)人: | 趙才榮;馮舒揚 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06T3/40 | 分類號: | G06T3/40;G06T7/10;G06T7/181;G06V10/77;G06V10/82;G06N3/04 |
| 代理公司: | 上海科律專利代理事務所(特殊普通合伙) 31290 | 代理人: | 葉鳳 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 圖像 分辨率 方法 | ||
1.一種文本圖像超分辨率方法,其特征在于,采用平行雙分支結構捕捉視覺上下文信息,并且自適應加權特征重建文本高頻信息;
包括以下步驟:
1)圖像預處理:由灰度圖像均值將灰度圖像二值化得到文字蒙版,將文字蒙版(M)疊加到圖像上,得到RGBM的四通道低分辨率-高分辨率圖像對;
2)模型訓練:低分辨率RGBM被送入網絡,首先經過文本矯正模塊的處理;緊接著,利用矯正后的特征統一構建視覺上下文,這個部分由稠密連接的五個并行正交上下文注意力模塊(PCAB)組成;然后,每個PCAB模塊的輸出被統一合并到一起,進一步在這些特征上構建正交紋理感知注意力,自適應加權那些對重建高頻信息有較大影響的特征;最后,經過兩倍上采樣和一次卷積,得到最終尺寸為4*(2H)*(2W)的輸出超分辨率RGBM圖像;
所述的步驟2)中,將訓練集圖像輸入網絡中進行訓練,具體包括以下步驟:
21)網絡的第一個階段是文本校正;使用STN網絡實現了薄板樣條插值函數(TPS)的操作;首先,輸入圖像為16*64尺寸的RGBM低分圖像,經過TPS-STN網絡生成校正采樣以后的采樣矩陣,再從輸入圖像上做相應的采樣得到16*64的同尺寸輸出;
22)網絡的第二個階段是構建視覺上下文;首先,經過一次卷積核大小為9*9,步長為1,邊界填充為4的卷積操作,得到輸出為64*16*64的特征層;將此特征以DenseNet稠密連接的模式送入五個并行正交上下文注意力模塊(PCAB),提取視覺特征的上下文關系;每個并行上下文注意力特征提取模塊的輸入尺寸為(T*64)*16*64,T表示當前塊的序號;PCAB模塊將先進行通道降維,經過一次3*3卷積,將(T*64)*16*64輸入特征通道降維成64*16*64,然后先在模塊內的主干分支上經過一次3*3的同型卷積處理,然后變成雙分支結構,上下支路分別進行一次3*3的同型卷積,以及一次GRU運算構建垂直或水平方向上的循環連接,最終將雙分支特征按通道維度堆疊在一起,得到尺寸為128*16*64的特征,此特征在后階段經過一次通道注意力加權,再經一次卷積得到PCAB模塊的輸出結果;GRU模塊構建視覺特征上下文的計算方法如下:
Fout=fc(Concat(Oh,Ov))
其中,Ht表示GRU中的隱藏層,下標t表示GRU中的時間步,Xr,Xh,Xv分別表示主干特征、上分支特征、下分支特征,表示GRU定義的矩陣運算;Oh,Ov分別表示經由GRU處理以后的上下分支特征,Concat表示按照通道方向上堆疊特征,并由fc函數生成通道注意力權重對特征進行點乘加權,Fout表示通道加權以后的輸出特征;
23)網絡的第三個階段是在層級特征之上構建正交紋理感知注意力,此模塊的實現如下:首先,將上一階段五個并行正交上下文注意力模塊的輸出特征堆疊到一起得到(5*64)*16*64的特征圖;在此基礎上構建正交紋理感知注意力,主干特征經過兩次1*1同型卷積,然后分為垂直方向紋理感知和水平方向紋理感知雙分支;雙分支分別采用1*K、K*1卷積作為基礎,K表示卷積核尺寸,采用K為3,結合不同大小的空洞系數dilation,空洞系數dilation為1、2、3,并且讓同一類紋理感知的空洞卷積共享權重,降低參數量的同時擴大CNN的感知范圍;將上下分支處理得到的特征通道堆疊得到尺寸為(6*5*64)*16*64的特征圖;然后此特征經過一次通道加權、一次1*1同型卷積通道降維、一次尺寸為8*8步長為2的最大池化、一次卷積、一次上采樣、一次卷積、一次Sigmoid特征歸一化,得到空間注意力權重張量,并與此模塊的輸入特征進行按位點乘,乘完的特征作為模塊的輸出;
24)最后,文本圖像超分辨率被建模成為一種回歸問題;由前面步驟得到特征先進行兩倍上采樣,再經過一次卷積核尺寸為9*9、邊界補零為4的卷積運算得到整個網絡的輸出結果;網絡輸出與高分辨率RGBM之間采用L2損失函數優化,同時使用邊緣引導損失函數LEG進行輔助訓練;網絡的整體優化過程數學表達如下:
其中,L2損失函數是本領域已知的一種回歸損失,Ey表示對y求期望,和y分別表示模型預測的超分辨率輸出結果和高分辨率圖像;f(x)函數用于顯式地處理圖像x上的垂直、水平紋理,得到一張邊緣梯度響應圖,Wh,Wv分別表示Sobel算子的水平、垂直方向上的濾波參數,實踐過程中將其替換CNN的權重并且固定此權重,Conv(x,W)表示在輸入為x的特征上進行參數為W的卷積運算,ε表示平滑系數,LEG表示邊緣引導損失函數,它度量的是超分辨率圖像和高清圖像之間輪廓高頻信息的差值,Ltotal是總的優化方程,λ1,λ2分別作為最終優化目標的權重因子。
2.如權利要求書1所述一種文本圖像超分辨率方法,其特征在于,所述的步驟1)中,圖像預處理具體包括以下步驟:
取灰度圖像像素值的平均值作為閾值,得到二值化蒙版;將蒙版與RGB圖像通道疊加,得到RGBM低分辨率-高分辨率圖像對,為訓練文本超分辨率網絡做準備。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110614954.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種羅漢果減糖甜味料及其制備方法
- 下一篇:一種可自由調節高度的配電柜支架
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





