[發明專利]文字識別方法、裝置及終端有效
| 申請號: | 201710667029.9 | 申請日: | 2017-08-07 |
| 公開(公告)號: | CN107527059B | 公開(公告)日: | 2021-12-21 |
| 發明(設計)人: | 楊松 | 申請(專利權)人: | 北京小米移動軟件有限公司 |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46;G06K9/62 |
| 代理公司: | 北京名華博信知識產權代理有限公司 11453 | 代理人: | 朱影 |
| 地址: | 100085 北京市海淀區清河*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文字 識別 方法 裝置 終端 | ||
1.一種文字識別方法,其特征在于,包括:
對待識別圖像進行特征提取處理,得到所述待識別圖像的特征圖,其中,所述特征圖包括所述待識別圖像的特征信息;
根據所述待識別圖像的特征信息,生成特征序列;
對所述特征序列進行編碼處理,得到編碼處理后的特征序列,所述編碼處理后的特征序列中包括多個第一特征信息向量;
重復執行以下過程,直至識別出所述待識別圖像中的所有文字:根據預設的權重向量,對所述編碼處理后的特征序列進行加權處理,得到特征向量;對所述特征向量進行解碼處理,生成一個文字的識別結果;
其中,對每一個文字通過加權處理進行識別時,每一次所述加權處理中的所述權重向量是不同的,且采用的權重向量是對應于當前文字的特征的;
所述對所述特征向量進行解碼處理,生成一個文字的識別結果,包括:
采用循環神經網絡對所述特征向量進行解碼處理,生成一個文字的識別結果;
在所述根據預設的權重向量,對所述編碼處理后的特征序列進行加權處理,得到特征向量之前,還包括:
針對每一個所述第一特征信息向量,根據所述循環神經網絡的當前的狀態值向量、以及所述第一特征信息向量,確定一個中間參數;其中,所述當前的狀態值向量為所述循環神經網絡識別出前一個文字之后生成的,并且在對所述待識別圖像進行第一次識別時,所述當前的狀態值向量內各數值的取值為預設數值;
對所有的所述中間參數分別進行歸一化處理,得到所述權重向量,所述權重向量包括所有的歸一化處理后的中間參數;
第i個所述中間參數為其中,U為采用所述循環神經網絡對文字圖像樣本集進行訓練學習之后得到的第一矩陣,V為所述訓練學習之后得到的第二矩陣,為所述訓練學習之后得到的第一向量,為所述訓練學習之后得到的第二向量,h為所述當前的狀態值向量,fi′為所述編碼處理后的特征序列中的第i個第一特征信息向量,i為正整數,i∈[1,x],x為所述編碼處理后的特征序列中的第一特征信息向量的個數。
2.根據權利要求1所述的方法,其特征在于,第i個所述歸一化處理后的中間參數為
3.根據權利要求2所述的方法,其特征在于,所述特征向量
4.根據權利要求1-3任一項所述的方法,其特征在于,所述根據所述待識別圖像的特征信息,生成一個特征序列,包括:
在所述特征圖的寬度的方向上,對所述特征圖進行切分,得到至少一個特征子圖,其中,一個所述特征子圖包括一個特征子圖的所述特征信息;
根據每一個所述特征子圖的所述特征信息,分別生成每一個所述特征子圖的第二特征信息向量;
根據所有所述特征子圖的第二特征信息向量,生成所述特征序列。
5.根據權利要求4所述的方法,其特征在于,每一個所述第二特征信息向量的維度為y*z,其中,y為所述特征圖的高度,z為所述特征圖的圖像通道個數;
所述特征序列中的第二特征信息向量的個數為x,且x為所述特征圖的寬度。
6.根據權利要求1-3任一項所述的方法,其特征在于,每一個所述第一特征信息向量的維度為256。
7.根據權利要求1-3任一項所述的方法,其特征在于,在所述對待識別圖像進行特征提取處理,得到所述待識別圖像的特征圖之前,還包括:
對所述待識別圖像進行縮放處理,得到縮放處理后的待識別圖像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米移動軟件有限公司,未經北京小米移動軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710667029.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:砂石計量裝置
- 下一篇:混凝土混合設備下料斗出料管的轉向機構





