[發明專利]基于概率矩陣的字符識別方法、裝置、設備及存儲介質有效
| 申請號: | 202010929789.4 | 申請日: | 2020-09-07 |
| 公開(公告)號: | CN112232347B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 何勝;喻寧;柳陽 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06V30/19 | 分類號: | G06V30/19;G06N3/08 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 徐進之 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 概率 矩陣 字符 識別 方法 裝置 設備 存儲 介質 | ||
1.一種基于概率矩陣的字符識別方法,其特征在于,所述基于概率矩陣的字符識別方法包括以下步驟:
將目標圖像輸入預設CTC模型,生成所述目標圖像對應的識別字符集以及字符概率矩陣,其中,所述識別字符集包括所述目標圖像中各個位置對應的識別字符,一個位置對應一個識別字符子集,一個識別字符對應一個概率值,所述字符概率矩陣包括識別字符集對應的全部概率值;
依次獲取第一位置對應的第一識別字符子集以及第二位置對應的第二識別字符子集,按照字符概率從大到小的順序,將所述第一識別字符子集以及所述第二識別字符子集中的各個字符進行排序,獲取排列在前預設個數的識別字符,并生成第一備選字符集以及第二備選字符集,其中,所述第一位置為所述目標圖像的最左側字符位置,第二位置為所述最左側的下一字符位置;
遍歷所述第一備選字符集中各個第一備選字符以及所述第二備選字符集中各個第二備選字符,將所述各個第一備選字符與所述各個第二備選字符進行組合,生成備選字符序列集,根據各備選字符序列中包含的備選字符的字符概率確定所述備選字符序列的序列概率,根據所述備選字符序列的序列概率確定第一待定字符序列,并生成第一待定字符序列集;
依次獲取所述第二位置對應的下一位置,作為第三位置,將所述第三位置對應的識別字符子集進行排序以及取數操作,以生成第三備選字符集,并將所述第一待定字符序列集與所述第三備選字符集進行組合,以生成第二待定字符序列集,直至完成全部位置的識別字符的組合,生成相關待定字符序列集;
根據各相關待定字符序列中包含的相關字符序列的相關序列概率,在所述相關待定字符序列集中確定相關序列概率最大的相關待定字符序列為目標字符序列,并輸出所述目標字符序列的解析結果,完成所述目標圖像的識別。
2.如權利要求1所述的基于概率矩陣的字符識別方法,其特征在于,所述將所述第三位置對應的識別字符子集進行排序以及取數操作,以生成第三備選字符集,并將所述第一待定字符序列集與所述第三備選字符集進行組合,以生成第二待定字符序列集的步驟具體包括:
依次獲取第三位置對應的第三識別字符子集,按照字符概率從大到小的順序,將所述第三識別字符子集中的各個字符進行排序,獲取排列在前預設個數的識別字符,作為第三備選字符,并生成第三備選字符集;
獲取所述第一待定字符序列集中一第一待定字符序列,作為當前第一待定字符序列,并獲取所述第三備選字符集中一第三備選字符,作為所述當前第三備選字符;
判斷所述當前第三備選字符是否為英文字符;
若所述當前第三備選字符不是英文字符,則根據預設詞匯表判斷所述當前第一待定字符序列是否為可識別單詞;
若所述當前第一待定字符序列為可識別單詞,則對所述當前第一待定字符序列進行補償,并存儲所述當前第一待定字符序列對應的單詞解析結果。
3.如權利要求2所述的基于概率矩陣的字符識別方法,其特征在于,所述判斷所述當前第三備選字符是否為英文字符的步驟之后,還包括:
若所述當前第三備選字符為英文字符,則將所述當前第一待定字符序列與所述當前第三備選字符進行組合,生成第二待定字符序列;
獲取所述第三備選字符集中下一第三備選字符,作為所述當前第三備選字符,直至將所述第一待定字符序列集中各個第一待定字符序列與所述第三備選字符集中各個第三備選字符進行組合,以生成第二待定字符序列集。
4.如權利要求2所述的基于概率矩陣的字符識別方法,其特征在于,所述若所述當前第三備選字符不是英文字符,則根據預設詞匯表判斷所述當前第一待定字符序列是否為可識別單詞的步驟之后,還包括:
若所述當前第一待定字符序列不是可識別單詞,則將所述當前第一待定字符序列作為待識別字符串存儲至數據表;
根據預設語言模型對應的單詞處理個數確定目標個數,并在所述數據表中依次獲取所述目標個數的待識別字符串,輸入所述語言模型中,以通過所述語言模型計算所述目標個數的待識別字符串的連續詞關系概率;
在所述連續詞關系概率大于預設閾值時,存儲所述目標個數的待識別字符串對應的連續詞解析結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010929789.4/1.html,轉載請聲明來源鉆瓜專利網。





