[發明專利]一種基于OCR識別結果的大小寫金額相互演算推測方法在審
| 申請號: | 201811281336.4 | 申請日: | 2018-10-31 |
| 公開(公告)號: | CN111126400A | 公開(公告)日: | 2020-05-08 |
| 發明(設計)人: | 葉瑞;葉凱迪;陸愛亮 | 申請(專利權)人: | 上海邁弦網絡科技有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34 |
| 代理公司: | 上海宏京知識產權代理事務所(普通合伙) 31297 | 代理人: | 鄧文武 |
| 地址: | 201821 上海市嘉定區嘉*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ocr 識別 結果 大小寫 金額 相互 演算 推測 方法 | ||
本發明提供一種基于OCR識別結果的大小寫金額互推演算方法及系統,涉及圖像光學字符識別領域,所述方法包括以下步驟,步驟1:設置OCR軟件大寫金額和小寫金額的字符輸出限定;步驟2:OCR軟件識別輸入大寫金額和小寫金額;步驟3:對輸入的大寫金額和小寫金額進行初始化處理;步驟4:根據初始化處理后的大寫金額和小寫金額互推得到最終的大寫金額和小寫金額。本發明通過將OCR軟件識別輸入的大寫金額、小寫金額進行互推演算處理,最大程度還原被識別圖像文件上的金額信息,解決現有OCR軟件對于被識別圖像不清晰導致識別結果不準確的問題,提高了OCR軟件的識別準確率,使其更好的被下游軟件系統使用。
技術領域
本發明涉及圖像光學字符識別領域,尤其涉及一種基于OCR識別結果的大小寫金額互推演算方法及系統。
背景技術
OCR軟件,指利用OCR(Optical Character Recognition,光學字符識別)技術,將圖片、照片、電子傳真等圖像上的文字內容識別提取轉換為可編輯文本的軟件,通過掃描儀、照相機、電子傳真機等設備獲取并保存圖像文件,然后通過OCR軟件讀取、分析圖像文件并通過字符識別提取字符串。
目前,稅票、發票、合同、基金成交單和劃款指令單等各種文件在進行數字化管理時,需要OCR軟件對文件固定區域圖像內容進行自動識別,提取金額數字等信息。然而在利用OCR軟件進行金額數據識別提取時,由于識別圖像文件內容會出現模糊、錯位、圖像噪點等情況,OCR軟件識別結果會隨之出現錯誤,導致重要的金額數據無法完全識別,在一般場景下,OCR軟件自動識別、提取的大寫金額和小寫金額的結果會被下游系統直接獲取使用,大寫金額和小寫金額兩者之間不會有任何的處理,導致識別的大寫金額和小寫金額與實際文件圖像中的金額數字有些差異,需要大量的人力進行干預與修正,
發明內容
鑒于以上所述現有技術的缺點,本發明的目的在于提供一種基于OCR識別結果的大小寫金額互推演算方法及系統,將OCR軟件識別輸入的大寫金額、小寫金額進行相互演算驗證,最大程度還原被識別圖像文件上的金額信息,解決OCR軟件對于圖像不清晰導致識別結果不準確的問題,提高OCR軟件識別準確率。
本發明提供一種基于OCR識別結果的大小寫金額互推演算方法,所述方法包括以下步驟:
步驟1:設置OCR軟件大寫金額和小寫金額的字符輸出限定;
步驟2:OCR軟件識別輸入大寫金額和小寫金額;
步驟3:對輸入的大寫金額和小寫金額進行初始化處理;
步驟4:根據初始化處理后的大寫金額和小寫金額互推演算得到最終的大寫金額和小寫金額。
進一步的,所述字符輸出限定步驟具體如下:
步驟1.1:定義大寫金額和小寫金額識別輸出字符組合;
步驟1.2:定義占位符替代識別輸出字符組合以外的字符;
步驟1.3:根據大寫金額的基本屬性定義大寫金額的數字和單位組成,并將單位分為大單位和小單位。
進一步的,所述初始化處理步驟具體如下:
步驟3.1:過濾大寫金額中的非法字符,只保留數字字符、單位字符和中間未被識別的占位符;
步驟3.2:過濾小寫金額中的非法字符,只保留數字字符和小數點字符。
進一步的,所述大寫金額和小寫金額互推演算步驟具體如下:
步驟4.1:判斷初始化后的大寫金額是否存在單位缺失,若是,則對初始化后的大寫金額進行補單位處理,若否,則不做處理;
步驟4.2:根據輸入的小寫金額推算大寫金額,并將大寫金額以含大單位和小單位的數組形式表達;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海邁弦網絡科技有限公司,未經上海邁弦網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811281336.4/2.html,轉載請聲明來源鉆瓜專利網。





