[發(fā)明專利]表格識別方法、設(shè)備及計算機可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110385917.8 | 申請日: | 2021-04-08 |
| 公開(公告)號: | CN113139445A | 公開(公告)日: | 2021-07-20 |
| 發(fā)明(設(shè)計)人: | 苑建蕊;張磊 | 申請(專利權(quán))人: | 招商銀行股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/54 |
| 代理公司: | 深圳市世紀恒程知識產(chǎn)權(quán)代理事務(wù)所 44287 | 代理人: | 郝懷慶 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 表格 識別 方法 設(shè)備 計算機 可讀 存儲 介質(zhì) | ||
本發(fā)明公開了一種表格識別方法,該方法包括:檢測到識別指令時,獲取待識別的表格圖像,并對獲取的表格圖像進行框線提取處理,得到線段二值圖像,對線段二值圖像中的線段進行拼接處理,得到拼接線段集合;對拼接線段集合進行單元格提取處理和檢測,以確定經(jīng)過框線提取處理得到的第一表格中是否存在漏檢直線;若存在,則對第一表格的單元格進行二次分割處理,得到第二表格;對第二表格的單元格進行切片處理,并從切片處理后的單元格中提取文字信息,對第二表格和文字信息進行標準化輸出,得到目標表格。本發(fā)明還公開了一種設(shè)備及計算機可讀存儲介質(zhì)。本發(fā)明通過對提取的單元格進行直線漏檢檢測和二次分割處理,提高了表格識別的準確率。
技術(shù)領(lǐng)域
本發(fā)明涉及金融科技領(lǐng)域,尤其涉及一種表格識別方法、設(shè)備及計算機可讀存儲介質(zhì)。
背景技術(shù)
隨著互聯(lián)網(wǎng)信息技術(shù)的高速發(fā)展,企業(yè)憑借建設(shè)的信息系統(tǒng)逐漸實現(xiàn)業(yè)務(wù)流程的信息化。而如銀行等金融機構(gòu)由于其自身業(yè)務(wù)的需要,在業(yè)務(wù)流程中往往會產(chǎn)生大量的紙質(zhì)單據(jù)和報表,當下游業(yè)務(wù)系統(tǒng)需要用到紙質(zhì)表單中的數(shù)據(jù)時,通常需要業(yè)務(wù)人員手工錄入,然而,人工錄入表單數(shù)據(jù)的方式,顯然無法滿足爆炸式增長的需求,從而影響下游業(yè)務(wù)對數(shù)據(jù)的使用和工作效率,因此需要將紙質(zhì)表單錄入到信息化系統(tǒng)中以實現(xiàn)持久化存儲,同時方便下游業(yè)務(wù)對數(shù)據(jù)的調(diào)用。
現(xiàn)有的將紙質(zhì)單據(jù)表格轉(zhuǎn)化到信息系統(tǒng)中存儲的方法中,大多是通過人工配置模板進行匹配來獲取表格特定位置的感興趣區(qū)域,進而對紙質(zhì)單據(jù)進行實時處理,或者是利用深度學(xué)習(xí)網(wǎng)絡(luò)模型對表格圖像的表格線進行定位,進而確定表格圖像中各單元格的位置信息。在實際應(yīng)用中,海量紙質(zhì)表格的格式和內(nèi)容千差萬別,如果通過人工配置模板的方法進行識別,用于配置模板的工作量并不亞于手工錄入表單,且工作內(nèi)容更為繁瑣與沉重,對表格圖像的識別準確率過于依賴配置模板的精準度;如果利用深度學(xué)習(xí)網(wǎng)絡(luò)模型進行識別,在構(gòu)建深度學(xué)習(xí)模型識別網(wǎng)絡(luò)時需要大量時間,而且構(gòu)建的識別模型在對單元格的定位上存在較大偏差,從而造成整個表格識別準確率很低。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種表格識別方法、設(shè)備及計算機可讀存儲介質(zhì),旨在解決現(xiàn)有表格識別方法識別準確率低的技術(shù)問題。
此外,為實現(xiàn)上述目的,本發(fā)明還提供一種表格識別方法,所述表格識別方法包括以下步驟:
檢測到識別指令時,獲取待識別的表格圖像,并對所述表格圖像進行框線提取處理,得到線段二值圖像,對所述線段二值圖像中的線段進行拼接處理,得到拼接線段集合;
對所述拼接線段集合進行單元格提取處理,得到第一表格,并對所述第一表格進行檢測,以確定所述第一表格中是否存在漏檢直線;
若所述第一表格中存在漏檢直線,則對所述第一表格的單元格進行二次分割處理,得到第二表格;
對所述第二表格的單元格進行切片處理,并從切片處理后的單元格中提取文字信息,對所述第二表格和所述文字信息進行標準化輸出,得到目標表格。
可選地,所述對所述表格圖像進行框線提取處理之前的步驟,包括:
對所述表格圖像進行干擾檢測,以確定是否對所述表格圖像進行預(yù)處理;
若需要對所述表格圖像進行預(yù)處理,則對所述表格圖像進行矯正和/或去干擾處理;
其中,對所述表格圖像進行矯正處理的步驟包括:
對所述表格圖像進行二值化處理,得到二值化圖像,并對所述二值化圖像進行變換處理,以對所述二值化圖像的線段進行檢測并計算所述表格圖像中的表格的傾斜角;
根據(jù)所述傾斜角對所述表格圖像進行矯正處理;
對所述表格圖像進行去干擾處理的步驟包括:
對所述表格圖像進行二值化處理,以對所述表格圖像進行特征統(tǒng)計,得到干擾信息的特征信息;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于招商銀行股份有限公司,未經(jīng)招商銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110385917.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗設(shè)備、驗證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





