[發明專利]文字識別方法、裝置及終端有效
| 申請號: | 201710667029.9 | 申請日: | 2017-08-07 |
| 公開(公告)號: | CN107527059B | 公開(公告)日: | 2021-12-21 |
| 發明(設計)人: | 楊松 | 申請(專利權)人: | 北京小米移動軟件有限公司 |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46;G06K9/62 |
| 代理公司: | 北京名華博信知識產權代理有限公司 11453 | 代理人: | 朱影 |
| 地址: | 100085 北京市海淀區清河*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文字 識別 方法 裝置 終端 | ||
本公開是關于一種文字識別方法、裝置及終端,其中該方法包括:對待識別圖像進行特征提取處理,得到待識別圖像的特征圖,特征圖包括待識別圖像的特征信息;根據待識別圖像的特征信息,生成一個特征序列;對特征序列進行編碼處理,得到編碼處理后的特征序列,編碼處理后的特征序列中包括多個第一特征信息向量;重復執行以下過程,直至識別出待識別圖像中的所有文字:根據預設的權重向量,對編碼處理后的特征序列進行加權處理,得到特征向量;對特征向量進行解碼處理,生成一個文字的識別結果;每一次加權處理中的權重向量是不同的。完成對圖像的文字區域整體的識別,避免了單字切割時產生的誤差和錯誤;準確的識別出每一個文字,識別率較高。
技術領域
本公開涉及圖像處理技術領域,尤其涉及文字識別方法、裝置及終端。
背景技術
在獲取到圖像之后,通常需要對圖像中的文字進行識別。現在普遍使用光學字符識別(Optical Character Recognition,簡稱OCR)文字識別方法對圖像中的文字進行識別。
相關技術中,OCR文字識別方法分為文字行分割、單字分割、單字識別、語言模型解碼等流程,對一張圖像進行行分割之后,進行單個字的分割,然后對分割得到的單個字同時進行單字識別,最后進行語言模型解碼。
然而相關技術中,現有的OCR文字識別方法中對一個字一個字的切割,然后分別對每一個字同時進行識別,一旦單字切割出現切割錯誤,則單字識別就錯了,并且也影響到了其他的單個字的識別。從而,現有技術中提供的對圖像中的文字進行識別的方法,并不準確,容易出現錯誤,識別率較低。
發明內容
為克服相關技術中存在的對圖像中的文字進行識別的方法,并不準確,容易出現錯誤,識別率較低的問題,本公開提供一種文字識別方法、裝置及終端。
根據本公開實施例的第一方面,提供一種文字識別方法,包括:
對待識別圖像進行特征提取處理,得到所述待識別圖像的特征圖,其中,所述特征圖包括所述待識別圖像的特征信息;
根據所述待識別圖像的特征信息,生成一個特征序列;
對所述特征序列進行編碼處理,得到編碼處理后的特征序列,所述編碼處理后的特征序列中包括多個第一特征信息向量;
重復執行以下過程,直至識別出所述待識別圖像中的所有文字:根據預設的權重向量,對所述編碼處理后的特征序列進行加權處理,得到特征向量;對所述特征向量進行解碼處理,生成一個文字的識別結果;
其中,每一次所述加權處理中的所述權重向量是不同的。
進一步地,所述對所述特征向量進行解碼處理,生成一個文字的識別結果,包括:
采用循環神經網絡對所述特征向量進行解碼處理,生成一個文字的識別結果。
進一步地,在所述根據預設的權重向量,對所述編碼處理后的特征序列進行加權處理,得到特征向量之前,還包括:
針對每一個所述第一特征信息向量,根據所述循環神經網絡的當前的狀態值向量、以及一個所述第一特征信息向量,確定一個中間參數;其中,所述當前的狀態值向量為所述循環神經網絡識別出前一個文字之后生成的,并且在對所述待識別圖像進行第一次識別時,所述當前的狀態值向量內各數值的取值為預設數值;
對所有的所述中間參數分別進行歸一化處理,得到所述權重向量,所述權重向量包括所有的歸一化處理后的中間參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米移動軟件有限公司,未經北京小米移動軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710667029.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:砂石計量裝置
- 下一篇:混凝土混合設備下料斗出料管的轉向機構





