[發明專利]用于輔助OCR圖像數據標注的方法及裝置有效
| 申請號: | 202010304296.1 | 申請日: | 2020-04-17 |
| 公開(公告)號: | CN111461132B | 公開(公告)日: | 2022-05-10 |
| 發明(設計)人: | 蔡耀華 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06V10/26 | 分類號: | G06V10/26;G06V30/24 |
| 代理公司: | 北京永新同創知識產權代理有限公司 11376 | 代理人: | 林錦輝;劉景峰 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 輔助 ocr 圖像 數據 標注 方法 裝置 | ||
1.一種用于輔助OCR圖像數據標注的方法,包括:
對OCR圖像數據進行文本區域檢測,得到所述OCR圖像數據中的第一文本候選區域集;
基于文本候選區域的區域高度,將所述第一文本候選區域集劃分為第二文本候選區域集和第三文本候選區域集,第二文本候選區域的區域高度不小于所述第一文本候選區域集的平均區域高度,第三文本候選區域的區域高度小于所述第一文本候選區域集的平均區域高度;
基于文本候選區域的重合關系,將所述第二文本候選區域集劃分為第四文本候選區域集和第五文本候選區域集,第四文本候選區域是與其它文本候選區域之間不存在重合的文本候選區域,第五文本候選區域是與其它文本候選區域之間存在部分重合的文本候選區域;
從所述第五文本候選區域集中的每組重合文本候選區域中確定出代表文本候選區域,得到第六文本候選區域集;以及
輸出所述第四文本候選區域集和所述第六文本候選區域集中的文本候選區域,作為文本標注框,
其中,從所述第五文本候選區域集中的每組重合文本候選區域中確定出代表文本候選區域,得到第六文本候選區域集包括:
確定所述第四文本候選區域集的整體區域斜率,作為標準區域斜率;
針對每組重合文本候選區域,
分別計算該組文本候選區域中的各個文本候選區域與距離最近的第四文本候選區域之間的區域斜率,其中,兩個文本候選區域之間的區域斜率利用基于該兩個文本候選區域所提取出的文本特征點擬合出的趨勢線的傾斜角度表示,以及
將所計算出的區域斜率與所述標準區域斜率差距最小的文本候選區域,確定為該組重合文本候選區域的代表文本候選區域。
2.如權利要求1所述的方法,其中,在將所述第一文本候選區域集劃分為第二文本候選區域集和第三文本候選區域集之前,所述方法還包括:
對所述第一文本候選區域集中的第一文本候選區域進行重疊合并處理。
3.如權利要求1所述的方法,其中,在將所述第二文本候選區域集劃分為第四文本候選區域集和第五文本候選區域集之前,所述方法還包括:
從所述第二文本候選區域集中去除區域斜率大于預定閾值的文本候選區域。
4.如權利要求1所述的方法,其中,在將所述第二文本候選區域集劃分為第四文本候選區域集和第五文本候選區域集之前,所述方法還包括:
從所述第二文本候選區域集中搜索出所述第三文本候選區域集中的各個第三文本候選區域的鄰居區域;以及
將與所述鄰居區域之間存在重合的第三文本候選區域,添加到所述第二文本候選區域集中。
5.如權利要求1所述的方法,還包括:
提取所述文本標注框中的各個文本候選區域的文本特征點;
基于所提取的各個文本候選區域的文本特征點,確定所述文本標注框的傾斜度;以及
根據所述文本標注框的傾斜度,對所述文本標注框進行旋轉校正。
6.如權利要求1所述的方法,還包括:
對所述OCR圖像數據進行二值化處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010304296.1/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





