[發明專利]文本識別方法、裝置、電子設備及存儲介質在審
| 申請號: | 202011135016.5 | 申請日: | 2020-10-21 |
| 公開(公告)號: | CN112215236A | 公開(公告)日: | 2021-01-12 |
| 發明(設計)人: | 盧青;章繼東 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/62;G06F40/216;G06F40/126 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 程琛 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 識別 方法 裝置 電子設備 存儲 介質 | ||
1.一種文本識別方法,其特征在于,包括:
預測待識別對象的字符數量;
對所述待識別對象進行文本識別,并統計所述文本識別所得的字符數量;
當預測所得的字符數量與統計所得的字符數量匹配時,輸出所述待識別對象的文本識別結果。
2.根據權利要求1所述的文本識別方法,其特征在于,還包括:
當所述預測所得的字符數量和所述統計所得的字符數量不匹配時,對所述待識別對象進行分塊,得到多個對象子塊;
對每個對象子塊分別進行文本識別,將所述文本識別所得的每個對象子塊的文本進行組合,并統計所述組合所得的字符數量。
3.根據權利要求2所述的文本識別方法,其特征在于,所述對所述待識別對象進行分塊,包括:
計算所述待識別對象中相鄰字符之間的間距,以位于間距最大的相鄰字符之間的分割線對所述待識別對象進行分塊。
4.根據權利要求1-3任一項所述的文本識別方法,其特征在于,所述對所述待識別對象進行文本識別包括:
應用文本識別模型,獲取所述待識別對象的文本識別結果;
其中,所述文本識別模型用于基于所述待識別對象中各個字符的上下文關系進行文本識別。
5.根據權利要求4所述的文本識別方法,其特征在于,所述應用文本識別模型,獲取所述待識別對象的文本識別結果,包括:
應用所述文本識別模型的對象特征編碼層,獲取所述待識別對象中每一區域的對象特征編碼;
應用所述文本識別模型的上下文編碼層,獲取對應于每一區域的對像特征編碼以及上一解碼時刻的解碼狀態的當前解碼時刻的對象上下文編碼;
應用所述文本識別模型的解碼層,獲取對應于當前解碼時刻的解碼狀態和對象上下文編碼,以及上一解碼時刻的解碼結果的當前解碼時刻的解碼結果;
其中,所述當前解碼時刻的解碼狀態是基于當前解碼時刻的對象上下文編碼,以及上一解碼時刻的解碼狀態和解碼結果確定的;
所述文本識別結果為最終解碼時刻的解碼結果。
6.根據權利要求5所述的文本識別方法,其特征在于,所述應用所述文本識別模型的上下文編碼層,獲取對應于每一區域的對像特征編碼以及上一解碼時刻的解碼狀態的當前解碼時刻的對象上下文編碼,包括:
應用所述上下文編碼層的注意力權重確定層,獲取對應于每一區域的對像特征編碼以及上一解碼時刻的解碼狀態的每一區域對應的對象特征編碼的注意力權重;
應用所述上下文編碼層的融合編碼層,獲取對應于每一區域對應的對象特征編碼及其注意力權重的當前解碼時刻的對象上下文編碼。
7.根據權利要求1-3任一項所述的文本識別方法,其特征在于,所述預測待識別對象的字符數量,包括:
應用字符統計模型,得到所述待識別對象的預測字符數量;
其中,所述字符統計模型用于對所述待識別對象的對象特征進行非線性映射編碼,并基于編碼后的特征進行字符統計。
8.一種文本識別裝置,其特征在于,包括:
字符數量預測單元,用于預測待識別對象的字符數量;
文本識別和統計單元,用于對所述待識別對象進行文本識別,并統計所述文本識別所得的字符數量;
文本識別結果輸出單元,用于當預測所得的字符數量與統計所得的字符數量匹配時,輸出所述待識別對象的文本識別結果。
9.一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1至7任一項所述文本識別方法的步驟。
10.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該計算機程序被處理器執行時實現如權利要求1至7任一項所述文本識別方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011135016.5/1.html,轉載請聲明來源鉆瓜專利網。





