[發明專利]文字識別方法、裝置、設備及介質有效
| 申請號: | 201910803929.0 | 申請日: | 2019-08-28 |
| 公開(公告)號: | CN110503159B | 公開(公告)日: | 2022-10-11 |
| 發明(設計)人: | 張水發 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V30/146;G06V30/162;G06V30/18;G06V30/19 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 祝亞男 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文字 識別 方法 裝置 設備 介質 | ||
本公開關于一種文字識別方法、裝置、設備及介質,屬于多媒體技術領域。所述方法包括:根據文字和背景圖像的深度圖確定每個背景圖像的目標圖像區域,將文字添加至背景圖像的目標圖像區域,生成大量的場景文字圖像用于訓練文字識別模型,最終使用文字識別模型識別文字,降低了模型訓練樣本的采集難度和獲取成本,提高了文字識別模型的準確率和召回率。
技術領域
本公開涉及多媒體技術領域,特別涉及一種文字識別方法、裝置、設備及介質。
背景技術
光學字符識別(Optical Character Recognition,OCR)是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程,該技術可以應用于對自然場景圖像中的文字進行識別并獲取,也即是場景文字識別。
當前場景文字識別一般通過文字識別模型實現,而文字識別模型大多采用深度學習的方法訓練模型。由于深度學習在訓練模型時需要大量訓練樣本,而獲取大量訓練樣本并非易事,尤其是在場景文字識別中,場景文字圖像樣本采集困難且樣本中的文字難于標注,導致樣本獲取成本較大,限制了模型的學習,最終影響了文字識別模型的準確率和召回率。
發明內容
本公開提供了一種文字識別方法、裝置、設備及介質,以至少解決相關技術中場景文字圖像樣本采集困難,獲取成本大導致訓練出的文字識別模型準確率和召回率低的問題。本公開的技術方案如下:
根據本公開實施例的第一方面,提供一種文字識別方法,包括:
獲取多個背景圖像和文字;
對于每個背景圖像,基于該每個背景圖像的深度圖中像素點的像素值以及該文字的文字特征,確定每個背景圖像的目標圖像區域;
將該文字添加至該目標圖像區域,得到該每個背景圖像對應的場景文字圖像;
當獲取到待識別的圖像時,將該圖像輸入基于該每個背景圖像對應的場景文字圖像訓練得到的文字識別模型中,輸出該圖像的文字識別結果。
在一種可能實現方式中,該基于該每個背景圖像的深度圖中像素點的像素值以及該文字的文字特征,確定每個背景圖像的目標圖像區域,包括:
根據該每個背景圖像的深度圖中像素點的像素值,確定該每個背景圖像的至少一個圖像區域,每個圖像區域中任意兩個相鄰像素點的像素值之間的差值小于差值閾值;
根據該至少一個圖像區域的尺寸特征、形狀特征和像素值中的至少一種特征,以及該文字的文字特征,確定該每個背景圖像的目標圖像區域。
在一種可能實現方式中,該根據該每個背景圖像的深度圖中像素點的像素值,確定該每個背景圖像的至少一個圖像區域,包括:
對于該每個背景圖像的深度圖中任意兩個相鄰像素點,當該任意兩個相鄰像素點的像素值之間的差值小于差值閾值時,確定該兩個相鄰像素點位于同一圖像區域。
在一種可能實現方式中,該根據該至少一個圖像區域的尺寸特征、形狀特征和像素值中的至少一種特征,以及該文字的文字特征,確定該每個背景圖像的目標圖像區域,包括:
根據該至少一個圖像區域的尺寸特征、形狀特征和像素值中的至少一種特征,以及該文字的文字特征,從該至少一個圖像區域中,確定多個候選圖像區域;
從該多個候選圖像區域,確定目標圖像區域。
在一種可能實現方式中,該根據該至少一個圖像區域的尺寸特征、形狀特征和像素值中的至少一種特征,以及該文字的文字特征,從該至少一個圖像區域中,確定多個候選圖像區域,包括:
獲取該文字的文字特征,該文字特征包括字符的寬度、高度以及字符數量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910803929.0/2.html,轉載請聲明來源鉆瓜專利網。





