[發明專利]文字識別方法、裝置、設備及介質有效
| 申請號: | 201910803929.0 | 申請日: | 2019-08-28 |
| 公開(公告)號: | CN110503159B | 公開(公告)日: | 2022-10-11 |
| 發明(設計)人: | 張水發 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V30/146;G06V30/162;G06V30/18;G06V30/19 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 祝亞男 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文字 識別 方法 裝置 設備 介質 | ||
1.一種文字識別方法,其特征在于,所述方法包括:
獲取多個背景圖像和文字;
對于每個背景圖像,根據所述每個背景圖像的深度圖中像素點的像素值,確定所述每個背景圖像的至少一個圖像區域,每個圖像區域中任意兩個相鄰像素點的像素值之間的差值小于差值閾值,所述像素點的像素值表示所述像素點對應背景圖像中指定位置與拍攝所述背景圖像的相機所在水平面的距離,所述至少一個圖像區域為待添加的文字的位置;
獲取所述文字的文字特征,所述文字特征包括字符的寬度、高度以及字符數量;獲取所述至少一個圖像區域的外接矩形的尺寸、形狀和所述至少一個圖像區域的像素值中的至少一種特征;
對于任一個圖像區域,當所述圖像區域內的平均像素值小于像素值閾值時,將所述圖像區域確定為候選圖像區域,以使生成的場景文字圖像與真實的場景文字圖像相符;
從多個候選圖像區域,確定目標圖像區域;
將所述文字添加至所述目標圖像區域,得到所述每個背景圖像對應的場景文字圖像;
當獲取到待識別的圖像時,將所述圖像輸入基于所述每個背景圖像對應的場景文字圖像訓練得到的文字識別模型中,輸出所述圖像的文字識別結果。
2.根據權利要求1所述的方法,其特征在于,所述根據所述每個背景圖像的深度圖中像素點的像素值,確定所述每個背景圖像的至少一個圖像區域,包括:
對于所述每個背景圖像的深度圖中任意兩個相鄰像素點,當所述任意兩個相鄰像素點的像素值之間的差值小于差值閾值時,確定所述兩個相鄰像素點位于同一圖像區域。
3.根據權利要求1所述的方法,其特征在于,所述從多個候選圖像區域,確定目標圖像區域,包括下述任一項:
從所述多個候選圖像區域,隨機選擇一個候選圖像區域作為所述目標圖像區域;
獲取所述多個候選圖像區域與所述文字的匹配度,將所述匹配度最大的候選圖像區域作為所述目標圖像區域。
4.根據權利要求1所述的方法,其特征在于,所述深度圖的獲取過程包括:
將所述每個背景圖像輸入深度圖提取模型,輸出所述每個背景圖像的深度圖。
5.根據權利要求4所述的方法,其特征在于,所述深度圖提取模型的訓練過程包括:
獲取多個樣本背景圖像,每個樣本背景圖像攜帶有目標深度圖;
將所述多個樣本背景圖像輸入初始模型,輸出每個樣本背景圖像的預測深度圖;
獲取所述目標深度圖和所述預測深度圖的損失值;
基于所述損失值,對所述初始模型的模型參數進行調整,直至符合目標條件時,停止調整,得到所述深度圖提取模型。
6.根據權利要求1所述的方法,其特征在于,所述文字的獲取過程包括下述任一項:
隨機生成文字;
根據目標文字特征,生成符合所述目標文字特征的文字,所述目標文字特征包括字符的寬度、高度或字符數量中至少一項;
根據目標規則,生成所述每個背景圖像對應的文字,所述目標規則用于體現文字與背景圖像之間的關聯關系;
從文字庫中獲取文字。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910803929.0/1.html,轉載請聲明來源鉆瓜專利網。





