[發明專利]復雜干擾下字符串的分割與識別方法無效
| 申請號: | 201210193246.6 | 申請日: | 2012-06-13 |
| 公開(公告)號: | CN102722736A | 公開(公告)日: | 2012-10-10 |
| 發明(設計)人: | 汪榮貴;戴經成;周良;李想;游生福;查煒 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06K9/66 | 分類號: | G06K9/66;G06K9/34 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 何梅生 |
| 地址: | 230009 *** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 復雜 干擾 字符串 分割 識別 方法 | ||
技術領域
本發明涉及圖像處理領域,具體地說是一種復雜干擾下字符串的分割與識別技術。
背景技術
光學字符識別技術(Optical?Character?Recognition,簡稱OCR)經過多年的發展,取得了巨大的進步,目前已經在手寫輸入、車牌自動識別、文本的自動掃描與識別等領域得到廣泛的應用。然而,現有的OCR技術還難以對復雜干擾下的字符串進行穩健的分割與識別。正因為如此,網絡上通常采用受到一定干擾的字符串作為驗證碼,來鑒別某種操作是人工行為還是計算機的自動行為。
目前,對字符串的識別方法主要分為兩大類,一種是基于歐式空間距離的方法,例如模板匹配,PCA,2D-PCA,Hu不變矩等;這類方法簡單,易于實現,且對形狀規整的字符具有較好的識別效果;但是對于復雜干擾下的字符串,識別效果很差。
復雜干擾下的字符串一般具有以下特征:
(1)它們每種類型的字符都有多種字體,且故意扭曲或旋轉一定角度;
(2)字符粘連在一起,不易區分;
(3)干擾與字符本身的特征沒有明顯區別。
通過增加學習模板的方法,雖然在一定程度上提高了識別率,但是會過多的增加在時間上的開銷。
另一種是基于有監督機器學習的識別方法,例如神經網絡,SVM,AdaBoost算法等。這類方法具有機器學習的能力,能夠自動統計出樣本的特征,具有較高的識別率和較快的識別速度;但是這類方法需要非歧義的樣本,對于有干擾的樣本,不能取到很好的學習效果,所以對復雜干擾下的字符串的識別率較低。
對于無法用算法去除干擾的字符串,上述兩種方法都需要人工去除干擾并制作大量樣本。這樣做是既費時又費力的。
發明內容
本發明是為避免上述現有技術所存在的不足之處,提出一種復雜干擾下字符串的分割與識別方法,能夠實現樣本的自動獲取,在保證識別率的情況下不會增加時間上的開銷,對于有干擾的樣本,能取到很好的學習效果和識別率。
本發明解決技術問題采用如下技術方案:
本發明一種復雜干擾下字符串的分割與識別方法的特點是按如下過程進行:
Ⅰ、學習階段:利用多示例機器學習的方法按如下步驟對復雜干擾下字符串進行學習;
步驟1、獲取多示例學習的各個包;
將包含有干擾的m個字符圖像切分成m份圖片;每一份圖片包含且僅包含一個完整的字符;將所述m份圖片作為多示例學習的m個包,以所述m個包分別入庫;所述分別入庫是指將同一字符作為同一類,放入在同一個文件夾中,獲得與類的數量相一致的n個文件夾,所述n不大于m;
步驟2、利用haar-like特征原型提取haar-like特征作為包的示例;
若所述圖像不是灰度圖像,則先將庫內的每一個包進行灰度化處理,再按式(1)計算包的積分圖;若所述圖像是灰度圖像,則利用式(1)計算包的積分圖ii:
式(1)中ii(x,y)表示圖像中橫坐標i≤x,縱坐標j≤y的所有像素之和;
采用haar-like特征原型在所述包的積分圖中提取haar-like特征作為包的示例;所述包的示例由向量表示,所述向量的每一個分量對應每一個haar-like特征原型所提取的特征值;
步驟3、利用多樣性密度算法找到庫中每一類的多樣性密度最大的前u個包的示例作為該類的關鍵示例;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210193246.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:半導體電容器的形成方法
- 下一篇:帶驅動突緣的切割帶





