[發明專利]表格結構化方法、表格恢復設備及具有存儲功能的裝置在審
| 申請號: | 202011615053.6 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112733855A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 劉馳;李立夫;謝名亮;殷兵;張銀田 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/32;G06K9/46;G06T7/13;G06T7/187 |
| 代理公司: | 深圳市威世博知識產權代理事務所(普通合伙) 44280 | 代理人: | 李申 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 表格 結構 方法 恢復 設備 具有 存儲 功能 裝置 | ||
本申請公開了一種表格結構化方法、表格恢復系統以及具有存儲功能的裝置。本申請的表格結構化方法充分利用深度學習方案得到單元格的位置信息和文字信息,準確挖掘表格線和單元格定點位置信息,從而獲得準確的表格結構化。
技術領域
本申請涉及光學字符識別文字檢測與識別以及表格檢測技術領域,特別是涉及一種表格結構化方法、表格恢復設備及具有存儲功能的裝置。
背景技術
在拍照和掃描圖片的場景中,表格廣泛存在于各種文檔圖片中。對表格結構和表格中的信息進行提取可有助于使用者對表格數據進行分析。對于規則的表格,表格結構信息的恢復相對簡單,然后對于不規則的表格,采用規則表格結構化方法,由于單元格合并、表格殘缺等原因,很難恢復表格信息。
當前表格檢測的技術方案大多數都基于深度學習方案,即將表格線或者表格單元檢測出來。然后基于檢測出來的表格線或者表格單元進行表格結構信息的構建和恢復。然后基于深度學習方案受限于訓練數據,導致無法準確的檢測出表格中的所有單元格或者表格線。
發明內容
本申請主要解決的技術問題是提供一種表格結構化方法、表格恢復系統及具有存儲功能的裝置,解決現有的表格檢測方案無法準成檢測的檢測出表格中的所有單元格或者表格線的問題。
為解決上述技術問題,本申請采用的一個技術方案是:提供一種表格結構化方法,該表格結構化方法包括:獲取到待結構化圖像,提取待結構化圖像中的文字的位置信息以及待結構化圖像的多個單元格的位置信息;對多個單元格進行連通域計算,得到待結構化圖像的表格的邊框輪廓;獲取到邊框輪廓的對應的包圍框的頂點的位置信息;以及獲取到邊框輪廓的頂點的位置信息;利用邊框輪廓的頂點的位置信息及其對應的包圍框的頂點的位置信息,計算得到邊框輪廓的變換矩陣;通過變換矩陣對邊框輪廓的單元格的位置信息進行校正;基于校正后的每個單元格的線條之間的位置關系對線條進行網格劃分,得到網格線條;將網格線條與單元格進行映射,得到表格的結構化圖像;利用文字的位置信息確定文字對應結構化圖像的位置,以得到待結構化圖像的表格的結構化信息。
其中,待結構化圖像為至少一個;獲取到邊框輪廓對應的包圍框的頂點的位置信息;以及獲取到邊框輪廓的頂點的位置信息的步驟包括:獲取到各邊框輪廓對應的包圍框的頂點的位置信息;以及獲取到各邊框輪廓的頂點的位置信息;利用邊框輪廓的頂點的位置信息及其對應的包圍框的頂點的位置信息,計算得到邊框輪廓的變換矩陣的步驟,包括:利用邊框輪廓的頂點的位置信息及其對應的包圍框的頂點的位置信息,計算得到各邊框輪廓的變換矩陣;通過變換矩陣對邊框輪廓的單元格的位置信息進行校正的步驟包括:通過變換矩陣對各邊框輪廓的單元格的位置信息進行校正;利用校正后的單元格的位置信息以及邊框輪廓的位置關系確定每個單元格所屬的表格。
其中,獲取到邊框輪廓對應的包圍框的頂點的位置信息的步驟,包括:將表格邊框的最小外接邊框進行旋轉,得到最小外接邊框旋轉后的邊框輪廓對應的包圍框,并獲取邊框輪廓對應的包圍框的頂點的位置信息。其中,將表格邊框的最小外接邊框進行旋轉,得到最小外接邊框旋轉后的邊框輪廓對應的包圍框,并獲取邊框輪廓對應的包圍框的頂點的位置信息的步驟,包括:將表格邊框的最小外接斜矩形進行旋轉,得到矩形的包圍框,并獲取矩形的包圍框的頂點的位置信息。
其中,利用校正后的單元格的位置信息以及邊框輪廓的位置關系確定每個單元格所屬的表格的步驟,包括:利用校正后的單元格的位置信息以及邊框輪廓的位置關系計算校正后的單元格與邊框輪廓的重疊部分的面積的比值;判斷比值是否大于第一預設值,若大于第一預設值則確定單元格屬于表格;若否,則單元格不屬于表格。
其中,獲取到邊框輪廓的頂點的位置信息以及獲取到邊框輪廓對應的包圍框的頂點的位置信息的步驟具體包括:通過多邊形擬合的方式和直線檢測的方式分別獲取對應邊框輪廓的頂點的位置信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011615053.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種降水預測方法以及裝置
- 下一篇:一種利用旋轉清除積水的水冷空調扇





