[發明專利]一種字符識別的處理方法和裝置有效
| 申請號: | 201510410166.5 | 申請日: | 2015-07-13 |
| 公開(公告)號: | CN106709489B | 公開(公告)日: | 2020-03-03 |
| 發明(設計)人: | 周龍沙;王紅法 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 字符 識別 處理 方法 裝置 | ||
1.一種字符識別的處理方法,其特征在于,包括:
根據字符在頁面上的高度信息將所述頁面上的多個字符歸屬到所述頁面上的多個行上,得到所述頁面上的每一行包括的多個字符,所述字符在頁面上的高度信息包括:該字符在所述頁面上的縱坐標和該字符的高度范圍;
從頁面上的多個字符中任意選擇一個字符作為當前字符,獲取當前字符與相鄰字符之間的字符間距;
若當前字符與相鄰字符之間的字符間距小于或等于字符段分割距離,將當前字符和相鄰字符劃分到一個字符段中,若當前字符與相鄰字符之間的字符間距大于字符段分割距離,將當前字符和相鄰字符劃分到兩個不同的字符段中;
按照所述頁面上字符之間在高度范圍上的重疊信息對所述頁面上的每個行包括的多個字符進行行校正,得到所述頁面上的每一行包括的行校正后的多個字符;
使用語義分析模型對所述頁面上的每一行包括的行校正后的多個字符進行語義校正;
其中,根據字符在頁面上的高度信息將所述頁面上的多個字符歸屬到所述頁面上的多個行上,得到所述頁面上的每一行包括的多個字符,包括:
從頁面上的多個字符中任意選擇一個字符作為當前字符,根據當前字符在頁面上的高度信息計算當前字符的中心點在頁面上的縱坐標,所述當前字符的中心點指的是字符在縱坐標方向上高度范圍的中間值;
判斷當前字符的中心點是否在當前字符的前一個字符的高度范圍內,若當前字符的中心點在當前字符的前一個字符的高度范圍內,則當前字符和前一個字符屬于同一個行,若當前字符的中心點不在當前字符的前一個字符的高度范圍內,則當前字符和前一個字符分別屬于兩個不同的行。
2.根據權利要求1所述的方法,其特征在于,所述按照所述頁面上字符之間在高度范圍上的重疊信息對所述頁面上的每個行包括的多個字符進行行校正,包括:
從所述頁面上的多個字符中任意選擇一個字符作為當前字符,獲取高度范圍與所述當前字符的高度范圍有重疊的多個字符;
若獲取到的高度范圍與所述當前字符的高度范圍有重疊的多個字符都屬于同一個行,則保持所述當前字符所在的行不變;
若獲取到的高度范圍與所述當前字符的高度范圍有重疊的多個字符分別屬于兩個行,分別計算出兩個行中高度范圍與所述當前字符的高度范圍有重疊的字符的個數,將所述當前字符所在的行確定為高度范圍與所述當前字符的高度范圍有重疊的字符的個數最多的行。
3.根據權利要求1所述的方法,其特征在于,所述根據字符在頁面上的高度信息將所述頁面上的多個字符歸屬到所述頁面上的多個行上之前,所述方法還包括:
根據從所述頁面上分割出的多個符號塊識別出所述頁面上的多個原始字符;
根據所述頁面上每個原始字符的高度范圍和寬度范圍從所述頁面上的所有原始字符中剔除掉過大字符或者過小字符,得到所述頁面上的多個字符。
4.根據權利要求1-3任一項所述的方法,其特征在于,所述多個字符段中每個字符段包括:行校正后的多個字符;
所述使用語義分析模型對所述頁面上的每一行包括的行校正后的多個字符進行語義校正,包括:
使用語義分析模型對所述頁面上的每一行中字符段內信息和字符段間信息分別進行語義校正。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510410166.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:根據指定位置進行圖像識別的方法
- 下一篇:一種字符識別方法和裝置





