[發明專利]基于圖像局部特征檢索的文字識別方法無效
| 申請號: | 201010289545.0 | 申請日: | 2010-09-22 |
| 公開(公告)號: | CN101957919A | 公開(公告)日: | 2011-01-26 |
| 發明(設計)人: | 陳凱;鄭琪;周異 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06K9/64 | 分類號: | G06K9/64;G06K9/00 |
| 代理公司: | 上海交達專利事務所 31201 | 代理人: | 王錫麟;王桂忠 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 圖像 局部 特征 檢索 文字 識別 方法 | ||
技術領域
本發明涉及的是一種圖像處理技術領域的方法,具體是一種基于圖像局部特征檢索的文字識別方法。
背景技術
圖像文字識別在許多領域有著廣泛的需求,例如書本/CD封面識別、車牌識別、圖像和視頻搜索引擎和網絡數據挖掘等。而針對復雜背景和自然拍攝的圖像文字的識別,由于該類圖像背景復雜,包括多樣的語種、字體、字符大小、位置、排列、字形,加之自然拍攝圖像中存在的光度不均、視角變換、幾何變形、噪聲干擾等,使得文本分析和識別面臨著極大的困難。
傳統的方法一般包括了文本定位、預處理(一般包括歸一化、增強、二值化)和OCR文字識別這些步驟。其中的每一步都涉及了許多其它的復雜方法,每一步方法都將影響了最終識別結果的準確性。Chen的論文《Automatic?detection?and?recognition?of?signs?from?naturalscenes(自然場景信號的自動檢測和識別)》提出了一種從自然場景的圖像中檢測和識別信號的方法。其中利用LoG(Laplacian?of?Gaussian,高斯拉普拉斯)邊緣檢測、顏色建模、版面分析和仿射校來檢測文本,然后對文本進行歸一化處理,最后用基于灰度的OCR進行文本識別。Koga的論文《Camera-based?Kanji?OCR?for?mobile-phones:practical?issues(用于手機實際使用的基于相機的漢字OCR)》針對手機提出了一種基于相機的漢字識別方法。該方法的第一部分包括了四個步驟:預二值化、粗略的版面分析、行方向檢測、行分割。而后一部分也包括了四個步驟:精細二值化、預分割、漢字識別和后處理。由于這類基于OCR方法,其識別的準確率與文本定位、以及增強后的圖像質量有著密切的關系。
由于對噪聲、復雜背景和許多種幾何變形、光度變換的魯棒性,局部特征被成功運用到了計算機視覺的諸多領域之中,諸如圖像匹配、物體識別、圖像檢索、建筑全景圖和視頻數據挖掘等。因此局部特征也可以被運用到文字識別中來。
經過對現有技術的檢索發現,Campos的論文《Character?recognition?in?natural?images(自然圖像中的文字識別)》利用局部特征和BoW(bag?ofvisual?words,視覺字)的模型來識別英語和印度單個字母。在陳凱的《基于SIFT特征與灰度差值直方圖特征的文字識別方法》專利中,提出了新的局部特征來識別文字。該方法利用SIFT特征和灰度差值直方圖特征來對圖片中分割的文字進行描述,然后和模板庫中的特征進行匹配,選擇最接近的作為識別結果。這些方法都是針對分割之后的單字進行識別,需要文字定位和分割,無法直接運用到復雜背景和自然拍攝的圖像中。
發明內容
本發明針對現有技術存在的上述不足,提供一種基于圖像局部特征檢索的文字識別方法,利用文字關鍵區域的局部特征來描述文字,并利用檢索技術來實現復雜背景和自然拍攝的圖片文字的識別。
本發明是通過以下技術方案實現的,本發明包括以下步驟:
第一步、建立漢字模板圖庫并提取其中每個漢字所對應圖片的特征值作為特征匹配庫;
所述的提取是指:采用尺度不變特征變換算法提取特征值。
所述的特征值包括特征點的位置信息、臨域尺度信息、主方向信息,以及SIFT特征點的128維向量。
第二步、計算待識別漢字所對應圖片的特征值,與特征匹配庫進行特征點匹配,得到局部特征點坐標。
所述的特征點匹配是指:采用MPLSH(Multi-Probe?Local?Sensitive?Hashing)多指針區域敏感哈希算法來進行快速的特征匹配。
第三步、對待識別漢字所對應圖片進行單字子窗口提取;
所述的單字子窗口是指:圖片中的一個正方形的區域,區域中包括了匹配所用的局部特征點;
所述的單字子窗口提取是指:統計待識別漢字所對應圖片的局部特征點的位置的范圍和臨域尺度的范圍,并根據臨域尺度的范圍計算出單字子窗口尺寸的范圍。
第四步、構建識別最大堆并進行單字子窗口識別和合并處理,實現文字識別。
所述的構建識別最大堆是指:統計所有單字子窗口中匹配的特征點的個數,將個數小于閾值的單字子窗口刪除,將剩余的單字子窗口組成一個識別最大堆,每次從堆中選擇點數最多的單字子窗口進行識別,當該單字子窗口中識別出了文字則刪除該文字上匹配的特征點并重新統計相關單字子窗口中特征點的個數,同時刪除點數小于閾值的單字子窗口;否則直接刪除該單字子窗口并重新進行構建,直至識別最大堆中不存在單字子窗口為止。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010289545.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于發生額審核財務報表系統
- 下一篇:一種手持設備的開關機電路
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





