[發明專利]文字實時識別方法、裝置、計算機設備及存儲介質有效
| 申請號: | 201910256927.4 | 申請日: | 2019-04-01 |
| 公開(公告)號: | CN110008961B | 公開(公告)日: | 2023-05-12 |
| 發明(設計)人: | 張歡;李愛林;張仕洋 | 申請(專利權)人: | 深圳華付技術股份有限公司 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148;G06N3/0464;G06N3/08 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 馮筠 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文字 實時 識別 方法 裝置 計算機 設備 存儲 介質 | ||
本發明涉及文字實時識別方法、裝置、計算機設備及存儲介質,該方法包括獲取待識別圖像數據;將待識別圖像數據輸入至文字識別模型內進行文字識別,以得到識別結果;采用CTC損失函數對齊所述識別結果,以得到字符序列;其中,所述文字識別模型是通過帶標識的圖像數據作為樣本數據訓練卷積神經網絡所得的。本發明通過將待識別圖像數據輸入至文字識別模型內進行文字識別,在對文字模型的訓練過程中,通過采用卷積計算,結合池化層降采樣以及批規范化層和丟失層加速收斂速度,提高穩定性,防止過擬合,改變卷積核,以減少計算量,實現既可以保證低功耗地識別文字,還可以提高文字識別的速率。
技術領域
本發明涉及文字識別方法,更具體地說是指文字實時識別方法、裝置、計算機設備及存儲介質。
背景技術
文本檢測過程是包括文本定位以及文本識別,現有的文字識別系統多采用傳統計算機視覺算法,未采用神經網絡,準確率較低,大多需要預先的字符分割,分割的誤差將進一步影響識別,具體方案是進行字符分割,將分割出來的字符分別進行分類,然后進行后處理將所有識別出的字符連接成最終的識別結果。此種算法將識別分為兩個步驟,而第一個步驟產生的誤差只是作為中間步驟,并沒有一定需要分割結果,并且分割的誤差會傳播到下一個步驟,將嚴重影響單字符分類的準確性,從而影響最終的識別效果。
另外,目前也有新的識別方法,采用目前效果很好的神經網絡訓練出文字識別模型,利用該模型識別文本,通常來講,文本行識別是一個序列到序列問題,也就是輸入圖片信息即像素序列,輸出一個文本序列,此時基于LSTM的RNN模型由于良好的序列建模能力,可以很好的解決此類序列問題,然而從功耗和速度上來講,相對于卷積,LSTM卻是非常不利于移動端部署的。而且圖片序列天生的沒有時間依賴關系,用重型LSTM建模并非是唯一最佳選擇,神經網絡文字識別大多需要耗費大量的計算資源,沒法脫離云的環境。
因此,有必要設計一種新的方法,實現既可以保證低功耗地識別文字,還可以提高文字識別的速率。
發明內容
本發明的目的在于克服現有技術的缺陷,提供文字實時識別方法、裝置、計算機設備及存儲介質。
為實現上述目的,本發明采用以下技術方案:文字實時識別方法包括:
獲取待識別圖像數據;
將待識別圖像數據輸入至文字識別模型內進行文字識別,以得到識別結果;
采用CTC損失函數對齊所述識別結果,以得到字符序列;
其中,所述文字識別模型是通過帶標識的圖像數據作為樣本數據訓練卷積神經網絡所得的。
其進一步技術方案為:所述文字識別模型是通過帶標識的圖像數據作為樣本數據訓練卷積神經網絡所得的,包括:
構建損失函數以及卷積神經網絡;
獲取帶標識的圖像數據,以得到樣本數據;
將樣本數據輸入卷積神經網絡內進行卷積計算,以得到樣本輸出結果;
將樣本輸出結果以及帶標識的圖像數據輸入損失函數內,以得到損失值;
根據損失值調整卷積神經網絡的參數;
利用樣本數據且采用深度學習框架對卷積神經網絡進行學習,以得到文字識別模型。
其進一步技術方案為:所述將樣本數據輸入卷積神經網絡內進行卷積計算,以得到樣本輸出結果,包括:
對樣本數據進行卷積核為3*3的卷積處理,以得到第一輸出結果;
對第一輸出結果進行最大池化處理,以得到第二輸出結果;
對第二輸出結果進行交叉卷積處理,以得到第三輸出結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳華付技術股份有限公司,未經深圳華付技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910256927.4/2.html,轉載請聲明來源鉆瓜專利網。





