[發明專利]一種文字識別方法、裝置及電子設備有效

申請號：	201610942164.5	申請日：	2016-10-25
公開（公告）號：	CN107977659B	公開（公告）日：	2021-03-16
發明（設計）人：	陳蘇	申請（專利權）人：	北京搜狗科技發展有限公司
主分類號：	G06K9/32	分類號：	G06K9/32;G06K9/68
代理公司：	北京華沛德權律師事務所 11302	代理人：	馬苗苗
地址：	100084 北京市海淀區中關***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種文字識別方法裝置電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種文字識別方法、裝置及電子設備，該方法包括：對待識別圖像進行預處理，獲得僅包含文字的目標圖像；提取所述目標圖像中的文字；針對提取到的每個文字，獲得所述每個文字的連通特征；針對所述每個文字，分別提取構成文字的所有像素點中各行的橫坐標及縱坐標的最大和最小的像素點，構成所述每個文字的輪廓特征；根據已建立的字模庫，以及所述每個文字的所述連通特征和所述輪廓特征，對所述每個文字進行識別。通過上述技術方案，實現了對不規則文字的準確識別，提高了文字識別能力。

技術領域

本發明涉及軟件技術領域，特別涉及一種文字識別方法、裝置及電子設備。

背景技術

目前，國內主流文字識別軟件主要應用于影印類書籍、基本證件照片識別，主要能夠識別宋體、楷體、黑體等一些常用字體，很少用于識別不規則的文字，例如驗證碼、變形文字圖片等，且對拉長、縮短或旋轉等的漢字識別能力弱。

國外一些主流的文字自動識別軟件，如GSA Captcha Breaker，對英文識別效果要高于國內OCR(Optical Character Recognition，光學字符識別)識別軟件，但不支持漢字的識別。因為漢字是一種特殊的模式，其特點是字數多，字形復雜，有的字形十分相似，印刷體漢字又有多種字體(仿宋、宋、黑、楷書等)和多種大小不同的字號，再加上變形、拉長、旋轉等操作，更難以被準確識別。

可見，如何提供一種能夠準確識別不規則文字已經成了當前亟需解決的技術問題。

發明內容

本發明實施例提供一種文字識別方法、裝置及電子設備，用于實現對不規則的文字進行準確識別，提高文字識別能力。

本申請實施例提供一種文字識別方法，包括以下步驟：

對待識別圖像進行預處理，獲得僅包含文字的目標圖像；

提取所述目標圖像中的文字；

針對提取到的每個文字，獲得所述每個文字的連通特征；

針對所述每個文字，分別提取構成文字的所有像素點中各行橫坐標及各列縱坐標的最大和最小的像素點，構成所述每個文字的輪廓特征；

根據已建立的字模庫，以及所述每個文字的所述連通特征和所述輪廓特征，對所述每個文字進行識別。

可選的，根據所述每個文字的所述連通特征和所述輪廓特征，在已建立的字模庫中，對所述每個文字進行識別。

可選的，所述提取所述目標圖像中的文字，包括：

根據所述目標圖像中文字的分隔條件，獲得所述每個文字所在的第一區域；