[發明專利]表格解析方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202210339121.3 | 申請日: | 2022-04-01 |
| 公開(公告)號: | CN114677695A | 公開(公告)日: | 2022-06-28 |
| 發明(設計)人: | 張鵬;齊蓉;葉瑛鋒;韋昌勇 | 申請(專利權)人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06V30/412 | 分類號: | G06V30/412;G06V30/414;G06V30/418 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 蔡抒楓 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 表格 解析 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種表格解析方法、裝置、計算機設備、存儲介質和計算機程序產品。所述方法包括:識別待處理影像中的文本,以及所述文本在所述待處理影像中的位置;所述待處理影像中包含待解析表格;根據所述文本和所述位置,確定所述待解析表格的表頭信息和跨度信息;根據所述表頭信息和所述跨度信息,從所述待處理影像中確定出目標區域;所述目標區域為所述待處理影像中包含所述待解析表格的最小區域;從所述目標區域中識別出目標文本;所述目標文本為屬于同一個單元格的文本;將所述目標文本與所述表頭信息進行匹配,得到所述待處理影像中所述待解析表格的表格解析結果。采用本方法能夠提高表格解析的準確性。
技術領域
本申請涉及人工智能技術領域,特別是涉及一種表格解析方法、裝置、計算機設備、存儲介質和計算機程序產品。
背景技術
在國際單證業務中,通常需要對客戶提供的紙質單據進行人工審核,為了提升業務處理效率,可以采用OCR(Optical Character Recognition,光學字符識別)等技術從紙質單據的影像中提取表格,形成結構化數據,進而實現智能審單。
現有技術中,對影像中表格的解析多數是基于表格邊框來實現,通過識別表格框線,依表格框線將原始表格切分為一個個碎片,再對每個碎片進行OCR識別,最后按照碎片間的空間關系重新組織識別結果,還原原始表格的結構及內容,實現識別結果的結構化。
然而,在實際業務場景下,單據樣式多種多樣,單據中的表格樣式可能是非規范化的,這就容易影響OCR識別結果的有效性,進而影響后續的智能審單。例如,可能存在缺少表格框線的開放式表格,開放式表格可能會缺少表格的內部框線、左框線或右框線,在這種情況下,基于邊框進行表格解析容易將多個單元格識別為一個,造成表格內容混淆;還可能出現文本內容橫跨表格框線,超出單元格范圍的情況,這時候基于表格框線來劃分識別結果,容易造成單元格識別的不準確。
因此,目前的表格提取技術存在表格解析結果不準確的問題。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠提高準確性的表格解析方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品。
第一方面,本申請提供了一種表格解析方法。所述方法包括:
識別待處理影像中的文本,以及所述文本在所述待處理影像中的位置;所述待處理影像中包含待解析表格;
根據所述文本和所述位置,確定所述待解析表格的表頭信息和跨度信息;
根據所述表頭信息和所述跨度信息,從所述待處理影像中確定出目標區域;所述目標區域為所述待處理影像中包含所述待解析表格的最小區域;
從所述目標區域中識別出目標文本;所述目標文本為屬于同一個單元格的文本;
將所述目標文本與所述表頭信息進行匹配,得到所述待處理影像中所述待解析表格的表格解析結果。
在其中一個實施例中,所述根據所述文本和所述位置,確定所述待解析表格的表頭信息和跨度信息,包括:
獲取待解析表格的表頭關鍵字;
通過在所述文本中查找所述表頭關鍵字,得到所述待解析表格的表頭;
確定所述表頭的表頭信息;所述表頭信息包括表頭頂點;
根據所述表頭頂點,得到所述待解析表格的跨度信息。
在其中一個實施例中,所述表頭信息還包括表頭位置;所述根據所述表頭信息和所述跨度信息,從所述待處理影像中確定出目標區域,包括:
通過在所述表頭上方查找距離所述表頭位置最近,且長度不小于所述跨度信息的橫線,得到所述待解析表格的上框線;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國工商銀行股份有限公司,未經中國工商銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210339121.3/2.html,轉載請聲明來源鉆瓜專利網。





