[發明專利]字體識別方法及裝置有效
| 申請號: | 201510520116.2 | 申請日: | 2015-08-21 |
| 公開(公告)號: | CN105117740B | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 姚聰;周舒暢;周昕宇;印奇 | 申請(專利權)人: | 北京曠視科技有限公司;北京邁格威科技有限公司 |
| 主分類號: | G06K9/68 | 分類號: | G06K9/68;G06K9/62 |
| 代理公司: | 北京市磐華律師事務所 11336 | 代理人: | 董巍;高偉 |
| 地址: | 100190 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字體 識別 方法 裝置 | ||
本發明提供了一種字體識別方法及裝置。所述字體識別方法包括:計算給定文字圖像的圖像特征;以及基于所計算的圖像特征利用訓練好的分類模型確定所述給定文字圖像中的文字的字體。本發明提供的字體識別方法及裝置通過圖像特性自動判斷給定文字的字體,識別精度高且速度快,此外還免去了人工辨識字體的過程,因此可以極大提高文檔處理、藝術設計等過程的效率。
技術領域
本發明涉及圖像處理技術領域,具體而言涉及一種字體識別方法及裝置。
背景技術
在世界范圍內,不同國家、不同地區的人使用不同種類的語言,相應地,文字也各不相同。即使是同一種文字,其字體也可能存在差異(如圖1所示)。對于文檔圖像處理而言,文字字體的變化可能會對文字識別(OCR)的精度產生影響;對于藝術設計而言,不同的字體可以表達不同的設計理念和視覺效果。然而,普通人的字體識別能力是非常有限的,因為目前的常用文字(如中文、英文等)字體繁多,可能高達數千種,且某些字體類別之間的差異微乎其微;即使是專業人士,也必須經過長時間的訓練且借助于工具才能具備超群的字體識別能力。因此,基于圖像的自動化字體識別在文檔圖像處理和藝術設計等領域一直是一項重要的技術。
目前,已經存在一些可以直接通過文字圖像判斷字體的技術。然而,有的方法可以區分中文和英文字符,但是無法識別具體的字體;有的方法可以支持手寫字體識別,但是處理的類別非常有限;有的方法僅針對單個漢字,無法處理由多個字符組成的詞語或短語;還有的方法采用圖像匹配的方式實現字體識別,但是只能識別最常見的幾種英文字體,不是針對字體識別的通用解決方案。總之,目前已有的技術和系統在自動化字體識別的精度和適應性等方面仍存在不足之處。
發明內容
針對現有技術的不足,一方面,本發明提供一種字體識別方法,所述字體識別方法包括:計算給定文字圖像的圖像特征;以及基于所計算的圖像特征利用訓練好的分類模型確定所述給定文字圖像中的文字的字體。
在本發明的一個實施例中,所述分類模型的訓練包括:構建文字圖像數據庫,所述文字圖像數據庫包括多個文字圖像以及每個文字圖像相應的標簽,所述標簽指示相應的文字圖像中的文字的字體;計算所述文字圖像數據庫中的每個文字圖像的圖像特征;基于所述標簽和所計算的每個文字圖像的圖像特征構建訓練集;以及采用隨機森林(RandomForest)算法在所述訓練集上訓練出所述分類模型。
在本發明的一個實施例中,在所述分類模型的訓練中:所述計算文字圖像數據庫中的每個文字圖像的圖像特征包括:將每個文字圖像的高度歸一化;在高度歸一化后的每個文字圖像中采集第一預定數目的不同尺寸的圖像塊;以及計算每個圖像塊的圖像特征。所述基于所述標簽和所計算的每個文字圖像的圖像特征構建訓練集包括:基于每個圖像塊的標簽和所計算的每個圖像塊的圖像特征構建訓練集,其中,每個圖像塊的標簽為其所源自的文字圖像的標簽。
在本發明的一個實施例中,所述計算給定文字圖像的圖像特征包括:將給定文字圖像的高度歸一化;在高度歸一化后的給定文字圖像中采集第二預定數目的不同尺寸的圖像塊;以及計算每個圖像塊的圖像特征。
示例性地,所述基于所計算的圖像特征利用訓練好的分類模型確定所述給定文字圖像中的文字的字體包括:將所計算的所述第二預定數目的圖像塊的圖像特征分別輸入到所述分類模型以得到多個識別結果;以及對所述多個識別結果取平均值作為所述給定文字圖像中的文字的字體的最終識別結果。
示例性地,所述第二預定數目為100。
示例性地,所述圖像塊的高度和寬度相等。
示例性地,所述第一預定數目為50。
在本發明的一個實施例中,計算圖像特征包括計算紋理特征和/或形狀特征。
示例性地,計算紋理特征包括計算詞袋模型(Bag of Words)。
示例性地,計算形狀特征包括計算形狀上下文(Shape Context)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京曠視科技有限公司;北京邁格威科技有限公司,未經北京曠視科技有限公司;北京邁格威科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510520116.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:除濕機按鍵和除濕機
- 下一篇:不串水的不銹鋼散熱器





