[發明專利]圖像文本區域定位方法及裝置、存儲介質及電子設備在審
| 申請號: | 202011561668.5 | 申請日: | 2020-12-25 |
| 公開(公告)號: | CN112560847A | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 何龔敏;楊俊 | 申請(專利權)人: | 中國建設銀行股份有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/34;G06K9/40 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李偉 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖像 文本 區域 定位 方法 裝置 存儲 介質 電子設備 | ||
1.一種圖像文本區域定位方法,其特征在于,包括:
獲取待定位文本圖像,確定所述待定位文本圖像的圖像類型;所述圖像類別包括純文本類型、文本直線交錯類型或復雜背景版面類型;
若所述待定位文本圖像的圖像類型為純文本類型,則對所述待定位文本圖像進行圖像預處理,并對圖像預處理后的待定位文本圖像進行膨脹處理,得到目標文本圖像,識別所述目標文本圖像中的各個文本行連通區域,確定每個所述文本行連通區域的外切矩形的坐標值,基于各個所述文本行連通區域的外切矩形的坐標值,確定所述待定位文本圖像中的文本行區域;其中,每一個所述文本行連通區域中相鄰像素點的像素值相同;
若所述待定位文本圖像的圖像類型為文本直線交錯類型,則對所述待定位文本圖像進行圖像預處理,并對圖像預處理后的待定位文本圖像進行水平線檢測和豎直線檢測,基于檢測得到的每一條水平線和每一條豎直線,確定多個矩形,依據所述矩形的坐標值,確定所述待定位文本圖像中的文本行區域;
若所述述待定位文本圖像的圖像類型為復雜背景版面類型,則將所述待定位文本圖像輸入至預先構建的單字識別模型中,得到所述待定位文本圖像中每個單字各自對應單字框的坐標預測值和置信度,基于每個所述單字框的置信度,從各個所述單字框中確定多個目標單字框,將水平方向相鄰的目標單字框進行合并,得到多個文本行連通區域,對所述待定位文本圖像進行水平線檢測和豎直線檢測,依據各個所述文本行連通區域、以及檢測得到的水平線和豎直線,確定所述待定位文本圖像中的文本行區域。
2.根據權利要求1所述的方法,其特征在于,所述對所述待定位文本圖像進行圖像預處理,包括:
對所述待定位文本圖像進行灰度化處理,得到灰度化圖像;
對所述灰度化圖像進行濾波處理,得到濾波圖像;
對所述濾波圖像進行自適應二值化處理,得到二值化圖像;
將所述二值化圖像中的每一個像素點的像素值進行反轉處理。
3.根據權利要求2所述的方法,其特征在于,所述對所述灰度化圖像進行濾波處理,得到濾波圖像,包括:
以預設的濾波滑動窗口的中心滑過所述灰度圖像中的每一個像素點;
在所述濾波滑動窗口的中心每滑動至所述灰度圖像中一個像素點時,基于所述待定位文本圖像的噪聲類型,選取預設的與所述噪聲類型對應的濾波計算公式,并基于所選取的濾波計算方式,計算當前濾波滑動窗口內的濾波灰度值,并以計算得到的濾波灰度值,作為所述像素點的像素值。
4.根據權利要求3所述的方法,其特征在于,所述對圖像預處理后的待定位文本圖像進行膨脹處理,得到目標文本圖像,包括:
基于第一滑動窗口,對圖像預處理后的待定位文本圖像進行膨脹處理;其中,所述第一滑動窗口的寬,依據所述待定位文本圖像中相鄰文字之間的間距確定,所述第一滑動窗口的高,依據所述待定位圖像中文本行的行間距確定。
5.根據權利要求3所述的方法,其特征在于,所述對圖像預處理后的待定位文本圖像進行水平線檢測,包括:
基于預設的第二滑動窗口,對圖像預處理后的待定位文本圖像進行腐蝕處理,得到第一腐蝕圖像;
基于預設的第三滑動窗口,對所述第一腐蝕圖像進行膨脹處理,得到第一膨脹圖像;
識別所述第一膨脹圖像中的各個水平連通區域,并確定每個所述水平連通區域的外切矩形;
針對每個所述水平連通區域,依據所述水平連通區域的外切矩形的坐標,計算所述外切矩形對應的水平線的兩個端點的坐標。
6.根據要求3所述的方法,其特征在于,所述對圖像預處理后的待定位文本圖像進行豎直線檢測,包括:
基于預設的第四滑動窗口,對圖像預處理后的待定位文本圖像進行腐蝕處理,得到第二腐蝕圖像;
基于預設的第五滑動窗口,對所述第二腐蝕圖像進行膨脹處理,得到第二膨脹圖像;
識別所述第二膨脹圖像中各個豎直連通區域,并確定每個所述豎直連通區域的外切矩形;
針對每個所述豎直連通區域,依據所述豎直連通區域的外切矩形的坐標,計算所述外切矩形對應的豎直線的兩個端點的坐標。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國建設銀行股份有限公司,未經中國建設銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011561668.5/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





