[發明專利]文本圖像識別方法、系統、設備及存儲介質在審
| 申請號: | 202110102941.6 | 申請日: | 2021-01-26 |
| 公開(公告)號: | CN112883818A | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 章嶸;龔霽程;趙釗 | 申請(專利權)人: | 上海西井信息科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20;G06N3/04;G06N3/08 |
| 代理公司: | 上海隆天律師事務所 31282 | 代理人: | 夏彬 |
| 地址: | 200050 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 圖像 識別 方法 系統 設備 存儲 介質 | ||
1.一種文本圖像識別方法,其特征在于,包括如下步驟:
將待識別圖像輸入特征提取網絡,得到特征圖;
將所述特征圖輸入文本框預測網絡,得到預測的文本框區域;
從所述待識別圖像中提取對應于所述文本框區域的文字圖像;
將所述文字圖像輸入文字預測網絡,得到預測的文字內容。
2.根據權利要求1所述的文本圖像識別方法,其特征在于,所述特征提取網絡為包括多個瓶頸模塊的卷積神經網絡,各個所述瓶頸模塊包括至少一個卷積模塊和一跳轉鏈接層,所述跳轉鏈接層用于將所述瓶頸模塊的輸入疊加到所述瓶頸模塊的輸出。
3.根據權利要求2所述的文本圖像識別方法,其特征在于,各個所述卷積模塊包括歸一化層、激活層和卷積層。
4.根據權利要求1所述的文本圖像識別方法,其特征在于,將所述特征圖輸入文本框預測網絡,得到預測的文本框區域,包括如下步驟:
將所述特征圖輸入一卷積層,得到所述特征圖的特征張量;
將所述特征張量輸入文本框預測網絡,得到預測的文本框區域。
5.根據權利要求1所述的文本圖像識別方法,其特征在于,所述文本框預測網絡為第一雙向循環神經網絡,將所述特征圖輸入文本框預測網絡,得到預測的文本框區域,包括如下步驟:
采用滑動卷積窗口對所述特征圖進行計算,得到長度為W的序列特征,W為所述特征圖的寬度;
將所述序列特征輸入全連接層,得到預測框的位置和含有文字的概率值;
根據所述含有文字的概率值從所述預測框中選擇文本候選框;
基于所述文本候選框的位置確定文本框區域。
6.根據權利要求5所述的文本圖像識別方法,其特征在于,所述采用滑動卷積窗口對所述特征圖進行計算時,每個點設置多個高度不同的錨點框,且采用所述滑動卷積窗口稠密地自左向右計算。
7.根據權利要求5所述的文本圖像識別方法,其特征在于,基于所述文本候選框的位置確定文本框區域,包括如下步驟:
將垂直方向重合度大于重合度閾值且距離小于距離閾值的文本候選框連接成一個完整的檢測框;
根據所述檢測框的位置所對應的區域確定文本框區域。
8.根據權利要求7所述的文本圖像識別方法,其特征在于,將所述序列特征輸入全連接層之后,所述全連接層還輸出x軸偏移量,所述x軸偏移量為所述文本框區域的邊界相對于錨點框邊界的偏移量;
訓練所述第一雙向循環神經網絡時,所述第一雙向循環神經網絡的損失函數包括預測框的位置損失函數、含有文字的概率值損失函數和x軸偏移量損失函數,所述含有文字的概率值損失函數為交叉熵損失函數,所述預測框的位置損失函數和所述x軸偏移量損失函數為SmoothL1損失函數。
9.根據權利要求8所述的文本圖像識別方法,其特征在于,訓練所述第一雙向循環神經網絡時,采用如下公式計算所述第一雙向循環神經網絡的損失函數L(si,vj,ok):
其中,Ns為包含文字的概率對應的錨點框數量,i∈(1,Ns),si,分別為預測包含文字的概率值和真實框包含文字的概率值,采用交叉熵函數,Nv為預測框位置對應的錨點框數量,j∈(1,Nv),vj,分別為預測框和真實框相對于錨點框的位置變化相對值,采用SmoothL1損失函數,No為x軸偏移量對應的錨點框數量,k∈(1,No),ok,分別為預測框的x軸偏移量和真實框的x軸偏移量,采用SmoothL1損失函數,λ1和λ2分別為位置變化相對值和x軸偏移量的預設權重系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海西井信息科技有限公司,未經上海西井信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110102941.6/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





