[發明專利]一種文字定位框的確定方法、裝置、介質及電子設備在審
| 申請號: | 202011035385.7 | 申請日: | 2020-09-27 |
| 公開(公告)號: | CN112183531A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 胡雅倫;陸登強;萬光明;車越云 | 申請(專利權)人: | 中國建設銀行股份有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/34 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文字 定位 確定 方法 裝置 介質 電子設備 | ||
本申請實施例公開了一種文字定位框的確定方法、裝置、介質及電子設備。所述方法包括:獲取切片圖像,對所述切片圖像進行預處理,得到預處理圖像;采用連通域分析算法,確定所述預處理圖像的文字區域;根據所述切片圖像中各文字區域,確定文字定位框的位置。執行本方案,可以直接根據所確定的文字定位框位置,調整外接方框的坐標,使外接方框更加貼近文字本身,進而利用新的外接方框截取優化后的切片圖像,作為下一步文字識別的輸入,無需重新標注和重新訓練的環節,提高了文字識別效率。
技術領域
本申請實施例涉及圖像處理技術領域,尤其涉及一種文字定位框的確定方法、裝置、介質及電子設備。
背景技術
近年來,隨著經濟的快速發展,圖像處理技術的應用越來越廣泛。大到衛星圖像識別,小到社區視頻監控,都離不開對圖像處理的技術的應用。
而在一些場景中,需要對圖像中的文字進行定位,例如用來識別文本內容,或者確定票據是否符合規定等等。現有技術中,基于深度學習的圖像識別技術一般包括文字定位、文字識別兩個步驟。文字識別的效果依賴于文字定位結果的準確性,若文字定位結果的文本外接方框過大時,方框內的空白部分比例過大,會導致識別結果不夠準確。目前采用的方法是對文字定位模型的數據進行重新標注,并對重新訓練模型,但效率較低。
發明內容
本申請實施例提供一種文字定位框的確定方法、裝置、介質及電子設備,可以利用連通域分析的方法對文字定位框進行確定,得到更加精確的坐標,以提高文字識別的準確率。并且,可以直接根據所確定的文字定位框位置,調整外接方框的坐標,使外接方框更加貼近文字本身,進而利用新的外接方框截取優化后的切片圖像,作為下一步文字識別的輸入,無需重新標注和重新訓練的環節,提高了文字識別效率。
第一方面,本申請實施例提供了一種文字定位框的確定方法,所述方法包括:
獲取切片圖像,對所述切片圖像進行預處理,得到預處理圖像;
采用連通域分析算法,確定所述預處理圖像的文字區域;
根據所述切片圖像中各文字區域,確定文字定位框的位置。
進一步的,對所述切片圖像進行預處理,得到預處理圖像,包括:
對所述切片圖像進行轉灰度圖處理,得到切片圖像灰度圖;以及,對所述切片圖像進行均值濾波處理,得到均值濾波結果;
根據所述切片圖像灰度圖與所述均值濾波結果,確定重置顏色切片圖像。
進一步的,在確定重置顏色切片圖像之后,所述方法還包括:
對所述重置顏色切片圖像進行二值化處理,得到二值化圖像。
進一步的,所述二值化圖像中,背景像素點設置為黑色,前景像素點設置為白色。
進一步的,采用連通域分析算法,確定所述預處理圖像的文字區域,包括:
計算所述預處理圖像中位置相鄰的具有前景像素點像素值的連通區域,確定為所述切片圖像的文字區域。
進一步的,各文字區域以矩形坐標數據的四個分量進行存儲;其中:
第一分量為矩形的左上角橫坐標;
第二分量為矩形的左上角縱坐標;
第三分量為矩形的寬度;
第四分量為矩形的高度。
進一步的,在計算所述預處理圖像中位置相鄰的具有前景像素點像素值的連通區域,確定為所述切片圖像的文字區域之前,所述方法還包括:
判斷各文字區域構成的文字排列方向是否為水平方向或為垂直方向;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國建設銀行股份有限公司,未經中國建設銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011035385.7/2.html,轉載請聲明來源鉆瓜專利網。





