[發明專利]基于詞庫的OCR語義校正方法、系統、介質、設備、終端在審
| 申請號: | 202110984517.9 | 申請日: | 2021-08-25 |
| 公開(公告)號: | CN113704403A | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 廖偉;石珺;李志鵬;郭認飛 | 申請(專利權)人: | 深圳市網聯安瑞網絡科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335;G06F40/30 |
| 代理公司: | 廣東普潤知識產權代理有限公司 44804 | 代理人: | 寇闖 |
| 地址: | 518000 廣東省深圳市福田區華富街道新田社*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 詞庫 ocr 語義 校正 方法 系統 介質 設備 終端 | ||
1.一種基于詞庫的OCR語義校正方法,其特征在于,所述基于詞庫的OCR語義校正方法包括:
使用字符識別結果置信度識別字符錯誤位置,然后結合字符識別結果和詞庫進行精準糾錯。
2.根據權利要求1所述的基于詞庫的OCR語義校正方法,其特征在于,所述使用字符識別結果置信度識別字符錯誤位置包括:
C1、C2…Cn為待識別字符序列,定義字符識別置信度閾值0.4,當字符Ci識別置信度小于閾值0.4時,判定該字符錯誤。
3.根據權利要求1所述的基于詞庫的OCR語義校正方法,其特征在于,所述結合字符識別結果和詞庫進行精準糾錯包括:
取該字符置信度前5的結果,分別提取5種結果和上下文組成嫌疑詞,按置信度從高到低的順序分別與詞庫進行匹配,匹配距離最小的結果作為字符Ci的識別結果輸出。
4.根據權利要求1所述的基于詞庫的OCR語義校正方法,其特征在于,所述基于詞庫的OCR語義校正方法具體包括:
步驟一,根據字符識別模型預測的字符置信度過濾出所有字符識別置信度小于閾值0.4的字符,每個字符記錄前5的結果,所述前5的結果為置信度前5的字符;
步驟二,分別對置信度小于閾值0.4的字符的5種結果提取嫌疑詞,嫌疑詞的提取是結合上下文,提取單字詞或多字詞,最終對應得到5組嫌疑詞,每組嫌疑詞會有1個或多個嫌疑詞;
步驟三,按照置信度順序從高到低的順序,分別對5組嫌疑詞和詞庫進行匹配,分別計算匹配距離,匹配距離采用編輯距離評估,對每組嫌疑詞的每個嫌疑詞在詞匯庫里查找最小編輯距離的詞,然后對該組詞所有詞的最小編輯距離求和作為改組詞的匹配距離;
步驟四,以匹配距離最小的結果作為結果輸出,如果匹配距離相同,則以置信度高的結果作為輸出。
5.根據權利要求4所述的基于詞庫的OCR語義校正方法,其特征在于,所述步驟二中,嫌疑詞由置信度小于閾值0.4的字符和上下文組成。
6.根據權利要求4所述的基于詞庫的OCR語義校正方法,其特征在于,所述步驟四后,重復步驟二~步驟四,直至置信度小于閾值0.4的所有字符都糾正一遍。
7.一種實施權利要求1~6任意一項所述基于詞庫的OCR語義校正方法的基于詞庫的OCR語義校正系統,其特征在于,所述基于詞庫的OCR語義校正系統包括:
過濾模塊,用于過濾出所有字符識別置信度小于閾值0.4的字符,每個字符記錄前5的結果;
提取嫌疑詞模塊,用于分別對置信度小于閾值0.4的字符的5種結果提取嫌疑詞,嫌疑詞是由該字符和上下文組成,最終對應得到5組嫌疑詞,每組嫌疑詞會有1個或多個嫌疑詞;
匹配模塊,用于按照置信度順序從高到低的順序,分別對5組嫌疑詞和詞庫進行匹配,分別計算匹配距離,匹配距離采用編輯距離評估;
輸出模塊,用于以匹配距離最小的結果作為結果輸出,如果匹配距離相同,則以置信度高的結果作為輸出;
字符循環糾正模塊,用于重復校正,直至置信度小于閾值0.4的所有字符都糾正一遍。
8.一種接收用戶輸入程序存儲介質,所存儲的計算機程序使電子設備執行所述權利要求1~6任意一項所述基于詞庫的OCR語義校正方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市網聯安瑞網絡科技有限公司,未經深圳市網聯安瑞網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110984517.9/1.html,轉載請聲明來源鉆瓜專利網。





