[發明專利]一種基于魯棒性表征學習的場景文本識別方法有效
| 申請號: | 202110625864.2 | 申請日: | 2021-06-04 |
| 公開(公告)號: | CN113343707B | 公開(公告)日: | 2022-04-08 |
| 發明(設計)人: | 明悅;范春曉;孫娟娟;鄧冠玉;鄧茜 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06V30/18;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京市商泰律師事務所 11255 | 代理人: | 黃曉軍 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 魯棒性 表征 學習 場景 文本 識別 方法 | ||
1.一種基于魯棒性表征學習的場景文本識別方法,其特征在于,包括:
將待識別的圖像輸入文本矯正網絡,所述文本矯正網絡對圖像進行不規則文本矯正處理,得到矯正圖像;
將所述矯正圖像輸入編碼器,所述編碼器利用坐標編碼模塊提取圖像的空間紋理信息,利用上下文建模網絡提取文本的語義建模特征,輸出文本的語義建模特征給全局語義提取模塊和解碼器;
所述全局語義提取模塊對輸入的文本的語義建模特征進行文本語義表征提取,輸出全局語義信息給解碼器;
所述解碼器根據接收的全局語義信息和文本的語義建模特征利用注意力機制進行串行分類預測,輸出所述待識別的圖像的文本識別結果;
所述的將所述矯正圖像輸入編碼器,所述編碼器利用坐標編碼模塊提取圖像的空間紋理信息,包括:
將矯正圖像輸入編碼器中的文本表征網絡中的坐標編碼模塊,所述坐標編碼模塊使用坐標卷積實現,置于編碼器的輸入端,編碼了輸入像素的空間位置信息,坐標編碼模塊的處理過程如公式(1)所示:
Ic=Concat(Ir,Im) (1)
其中Ir表示輸入圖像,具有三個通道,Im表示空間位置編碼信息,具有兩個通道,Concat(·)表示拼接操作,將輸入的兩張圖像在通道維度上疊加,實現空間編碼信息和原始圖像信息的融合,坐標編碼模塊的輸出用Ic表示,具有五個通道,包含了原始圖像和編碼信息,該原始圖像和編碼信息組成了圖像的空間紋理信息;
Im的編碼方式用公式(2)和公式(3)表示:
Im(0,x,y)=x/W,x∈[0,W),y∈[0,H) (2)
Im(1,x,y)=y/H,x∈[0,W),y∈[0,H) (3)
其中H和W分別表示輸入圖像的高與寬,x和y表示當前的空間坐標位置,圖像左上角坐標為(0,0),圖像右下角的坐標為(W-1,H-1);
坐標編碼模塊輸出圖像的空間位置編碼信息給主干網絡。
2.根據權利要求1所述的方法,其特征在于,所述的利用上下文建模網絡提取文本的語義建模特征,輸出文本的語義建模特征給全局語義提取模塊和解碼器,包括:
所述編碼器利用空間嵌入模塊根據圖像和圖像的空間紋理信息對圖像依次進行特征重組操作和通道壓縮操作,特征重組操作將高分辨率的空間語義信息嵌入特征圖的通道中,使用通道壓縮操作減少卷積通道的數量,所述特征重組操作和通道壓縮操作分別用公式(4)和公式(5)表示:
fSeq=Reshape(fI) (4)
fReduce=Conv1(fSeq) (5)
其中fI表示輸入的特征圖,具有C×(H/4)×(W/4)的尺寸,C為通道數,Reshape(·)表示特征重組操作,fSeq表示重組后的特征圖,具有(C×H/4)×1×(W/4)的尺寸,即將fI在高度上的信息重組到通道中,最終高度被降至1,而通道數提高到C×H/4,fReduce表示經過通道壓縮后的特征圖,是編碼器的實際輸出,具有(C×H/8)×1×(W/4)的尺寸,通道數是fSeq的一半,Conv1(·)表示感受野為1×1的卷積層,用于實現壓縮操作;
主干網絡根據重組和壓縮后的特征圖得到特征向量序列,編碼器中的上下文建模網絡根據主干網絡輸出的特征向量序列,融合序列中相鄰向量的語義信息,得到文本的語義建模特征,即編碼器的輸出,將文本的語義建模特征輸入到解碼器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110625864.2/1.html,轉載請聲明來源鉆瓜專利網。





