[發明專利]文字識別方法及裝置在審
| 申請號: | 201710891330.8 | 申請日: | 2017-09-27 | 
| 公開(公告)號: | CN107609560A | 公開(公告)日: | 2018-01-19 | 
| 發明(設計)人: | 張水發 | 申請(專利權)人: | 北京小米移動軟件有限公司 | 
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/62;G06N3/04;G06N3/08 | 
| 代理公司: | 北京格羅巴爾知識產權代理事務所(普通合伙)11406 | 代理人: | 孫德崇 | 
| 地址: | 100085 北京市海淀區清河*** | 國省代碼: | 北京;11 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 文字 識別 方法 裝置 | ||
技術領域
本公開涉及圖像識別技術領域,尤其涉及一種文字識別方法及裝置。
背景技術
相關技術中,文字識別是指利用計算機對圖像中文字進行識別、驗證和記錄等處理的技術。人們在生產和生活中,要處理大量的文字、報表和文本,文字識別技術能夠大大減輕人們的工作。目前,對于殘缺文字圖像中的文字識別準確率較低,提高殘缺文字圖像中的文字識別準確率具有重要意義。
發明內容
為克服相關技術中存在的問題,本公開提供一種文字識別方法及裝置。
根據本公開實施例的第一方面,提供一種文字識別方法,包括:
獲取待識別文字圖像包括的各個單個字符圖像;
針對所述待識別文字圖像包括的每個單個字符圖像,在確定所述單個字符圖像殘缺的情況下,將所述單個字符圖像輸入字符圖像生成網絡,得到第一修復單個字符圖像,并根據所述第一修復單個字符圖像進行文字識別,得到文字識別結果;其中,所述字符圖像生成網絡通過完整單個字符圖像和殘缺單個字符圖像訓練得到;
根據所述待識別文字圖像包括的各個單個字符圖像對應的文字識別結果,得到所述待識別文字圖像對應的文字識別結果。
在一種可能的實現方式中,所述方法還包括:
對所述完整單個字符圖像進行殘缺處理,得到所述殘缺單個字符圖像;
根據所述完整單個字符圖像和所述殘缺單個字符圖像,訓練判別網絡和生成網絡,所述判別網絡用于判別所述修復單個字符圖像和所述完整單個字符圖像的一致性;
重復訓練所述判別網絡和所述生成網絡,在訓練次數達到預設閾值或所述判別網絡的判別結果表明所述修復單個字符圖像和所述完整單個字符圖像的一致性滿足預設條件時,將當前的生成網絡確定為所述字符圖像生成網絡。
在一種可能的實現方式中,根據所述完整單個字符圖像和所述殘缺單個字符圖像,訓練判別網絡和生成網絡,包括:
將所述殘缺單個字符圖像輸入所述生成網絡,得到第二修復單個字符圖像;
將所述完整單個字符圖像和所述第二修復單個字符圖像輸入所述判別網絡,得到用于表示所述第二修復單個字符圖像與所述完整單個字符圖像是否一致的判別結果;
根據所述判別結果,調整所述判別網絡或所述生成網絡中參數的取值。
在一種可能的實現方式中,所述生成網絡包括通過殘差方式連接的多個編碼模塊和多個解碼模塊,所述編碼模塊包括卷積層、線性整流函數層和最大池化層,所述解碼模塊包括卷積層、線性整流函數層和最大池化層。
在一種可能的實現方式中,所述判別網絡包括依次連接的多個編碼模塊、多個全連接層和閾值函數層,所述編碼模塊包括卷積層、線性整流函數層和最大池化層。
在一種可能的實現方式中,所述方法還包括:針對所述待識別文字圖像包括的每個單個字符圖像,將所述單個字符圖像輸入文字分類器,得到所述單個字符圖像屬于各個字符分類的比率;在所述單個字符圖像屬于各個字符分類的比率均小于或等于第一閾值的情況下,確定所述單個字符圖像殘缺。
根據本公開實施例的第二方面,提供一種文字識別裝置,包括:
第一獲取模塊,用于獲取待識別文字圖像包括的各個單個字符圖像;
修復模塊,用于針對所述待識別文字圖像包括的每個單個字符圖像,在確定所述單個字符圖像殘缺的情況下,將所述單個字符圖像輸入字符圖像生成網絡,得到第一修復單個字符圖像,并根據所述第一修復單個字符圖像進行文字識別,得到文字識別結果;其中,所述字符圖像生成網絡通過完整單個字符圖像和殘缺單個字符圖像訓練得到;
識別模塊,用于根據所述待識別文字圖像包括的各個單個字符圖像對應的文字識別結果,得到所述待識別文字圖像對應的文字識別結果。
在一種可能的實現方式中,所述裝置還包括:
處理模塊,用于對所述完整單個字符圖像進行殘缺處理,得到所述殘缺單個字符圖像;
訓練模塊,用于根據所述完整單個字符圖像和所述殘缺單個字符圖像,訓練判別網絡和生成網絡,所述判別網絡用于判別所述修復單個字符圖像和所述完整單個字符圖像的一致性;
第一確定模塊,用于重復訓練所述判別網絡和所述生成網絡,在訓練次數達到預設閾值或所述判別網絡的判別結果表明所述修復單個字符圖像和所述完整單個字符圖像的一致性滿足預設條件時,將當前的生成網絡確定為所述字符圖像生成網絡。
在一種可能的實現方式中,所述訓練模塊用于:
將所述殘缺單個字符圖像輸入所述生成網絡,得到第二修復單個字符圖像;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米移動軟件有限公司,未經北京小米移動軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710891330.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于VR防偽技術的識別方法和系統
- 下一篇:一種大數據圖像處理方法





