[發明專利]一種文字識別的方法和系統有效
| 申請號: | 200810240957.8 | 申請日: | 2008-12-24 |
| 公開(公告)號: | CN101458770A | 公開(公告)日: | 2009-06-17 |
| 發明(設計)人: | 張巖;于嘯 | 申請(專利權)人: | 北京文通科技有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/20 |
| 代理公司: | 北京方韜法業專利代理事務所 | 代理人: | 岳 亞 |
| 地址: | 100190北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文字 識別 方法 系統 | ||
技術領域
本發明涉及圖像處理技術領域,尤其涉及一種文字識別的方法和系統。
背景技術
目前光學字符識別(OCR)技術已經非常成熟并形成了一系列的產品,其中中文OCR識別技術已經在生產生活中得到廣泛應用,中文印刷體的識別率可以達到98%以上。但是目前的OCR技術只能處理從掃描儀得到的高清晰度圖像,從掃描儀獲取的圖像,是在源文檔完全平整的條件下獲取的,因此幾乎不會存在幾何失真,所得圖像值可能在角度上存在一定的傾斜,對于這種傾斜的校正處理實際上已經相當成熟,幾乎所有針對掃描儀的商業化OCR軟件或者文檔采集軟件都具備相應的功能。
一個漢字識別系統大體上可分為輸入、預處理、識別、后處理和輸出共五個部分。
脫機漢字識別系統的對象是印(寫)在紙上的文字。它的輸入裝置可以是掃描儀、傳真機、一般攝像機或數字相機等。這些輸入裝置通常把印在紙上的圖文整頁地輸入計算機。預處理的主要作用不但要把頁面上的圖文分開,還必須把所有文字逐個分離。在正常情況下,各行文字的投影之間有一空隙。利用這些間隔可以實現行切割,把各行文字分開。同理把每一行文字向垂直方向投影也可以得到投影圖。漢字通常是矩形,彼此間有間隔,因此利用各行的垂直投影進行字切割也不困難。
對某一待識字進行識別時,一般必須將該字按一定準則,與存儲在機內的每一個標準漢字模板逐一比較,找出其中最相似的字,作為識別的結果。顯然,?漢字集合的字量越大,識別速度越低。為了提高識別速度,常采用樹分類,即多級識別方法,先進行粗分類,再進行單字識別。因此識別模塊包含粗分類和單字識別兩部分。粗分類的作用是把整個漢字集合劃分為若干個較小的子集,叫做候選集。有時有的候選集中的字數較多,還可以進行第二次粗分類,使候選集的字數進一步減少。這樣的識別方法通常叫做樹分類法,它好像是一棵樹,整個漢字集合是樹根;然后有樹干和樹枝,最后的樹葉就是單字。順便指出,這種具有多層分類結構的識別方法,對粗分類特征的要求更高,因為如果粗分類錯誤,影響很大。
后處理模塊的作用是對單字識別器的輸出進行校對、糾錯,以提高整個系統的正確識別率。后處理糾錯方法可以是人工的,也可以是自動的。
通過數碼相機采集文檔圖像,是一個全新的應用領域。與傳統的文檔圖像采集設備——掃描儀相比,數字照相機具有使用靈活,攜帶方便,不受版面大小限制等優點。
但是,現有的方案主要對于來自掃描儀的工整圖像和具有一定傾斜角度的圖像都可以很好的識別,對于來自數碼相機和收集的任意角度拍攝的圖像不能還不能識別。主要是視覺變形的圖像不能通過傳統的預處理進行有效分割,也不能采取簡單的二值化方法進行特征提取。
直接拍攝得到的文檔圖像通常會存在一定程度的幾何畸變,從而降低文檔圖像的質量,不利于人們對圖像文檔的閱讀效果,同時也不利于后期進行分析和文字識別。如何將直接拍攝的文檔圖像進行處理以消除這種幾何畸變就成為了一個亟待解決的問題。
發明內容
本發明的目的在于提出一種文字識別的方法和系統,能夠解決幾何畸變圖像的文字識別問題。
為達此目的,本發明采用以下技術方案:
一種文字識別的方法,包括以下步驟:
A、獲取變形圖像的水平基線和垂直基線,對所有的垂直基線交點按照交點的權重取加權平均,獲得所述變形圖像的垂直方向消失點,對所有的水平基線變換到同一位置,利用所有的水平基線的點同一進行Bezier曲線擬合,獲得一條Bezier準線,使用最小二乘法進行三次Bezier曲線擬合,獲得所述變形圖像的全局Bezier曲線;
B、在所述變形圖像上等距離繪制網格,并將網格點投影到成像平面;
C、對每一個網格進行四邊形變換,獲得所述網格的矯正圖像,并將所有網格的矯正圖像拼接成最終矯正圖像;
D、確定要識別的文字段落區域,對應到最終矯正圖像區域進行預處理,切分得到獨立文字;
E、對所述獨立文字圖像,采用基于灰度的識別算法進行識別。
獲取所述變形圖像的水平基線進一步包括以下步驟:
對所述變形圖像按亮度進行灰度化處理;
將灰度圖像進行模糊處理;
對得到的圖像進行二值化,數學形態學獨粘連處理,形成互相獨立的文本行連通域;
對圖像進行連通域分析,計算出上下邊緣曲線的平均曲線作為水平基線。
使用霍夫變換,從文本行的左右端點中獲取所述變形圖像的垂直基線。
步驟C中,對每一個網格進行四邊形變換是通過雙線性插值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京文通科技有限公司,未經北京文通科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810240957.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種利用計算機技術的建筑施工安全與監管的方法
- 下一篇:一種升降話筒





