[發明專利]基于表格識別的表格文字信息提取的方法及系統有效
| 申請號: | 201910182866.1 | 申請日: | 2019-03-12 |
| 公開(公告)號: | CN109934160B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 孫杰;王光夫 | 申請(專利權)人: | 天津瑟威蘭斯科技有限公司 |
| 主分類號: | G06V30/413 | 分類號: | G06V30/413;G06V30/148;G06V30/414;G06V30/168;G06V30/16 |
| 代理公司: | 天津展譽專利代理有限公司 12221 | 代理人: | 陳欣 |
| 地址: | 300000 天津市西青區濱海高新區華苑*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 表格 識別 文字 信息 提取 方法 系統 | ||
1.一種基于表格識別的表格文字信息提取的方法,其特征在于,包括如下步驟:
a.利用圖像算法框架載入表格圖像;
b.識別定位出表格圖像中的所有橫線,確定中間位置的兩條橫線為候選線;
c.將候選線兩端延長至左右邊界,左右邊界分別縱向延長至上下頂點;
d.預設相鄰像素值,根據位置判斷沿縱向與橫向在所述相鄰像素值內是否有節點,左右邊界分別沿橫向與相鄰像素值內的節點進行連接,連接過程中,同時尋找縱向在相鄰像素值內的節點進行連接;
e.對于表格中每個單元格內的信息分別進行提取識別。
2.根據權利要求1所述一種基于表格識別的表格文字信息提取的方法,其特征在于,步驟a還包括:在所述利用圖像算法框架載入表格圖像之后,對表格信息進行預處理。
3.根據權利要求2所述一種基于表格識別的表格文字信息提取的方法,其特征在于,步驟c還包括:在所述左右邊界分別縱向延長至上下頂點之后,對圖像進行矯正處理。
4.根據權利要求3所述一種基于表格識別的表格文字信息提取的方法,其特征在于,步驟e具體包括:根據表格結構特征對表格單元格進行ID標記;提取需要識別的表格對應標記的原圖中局部圖像;識別提取局部圖像內的文字信息。
5.根據權利要求4所述一種基于表格識別的表格文字信息提取的方法,其特征在于,步驟e還包括:在所述識別提取局部圖像內的文字信息之前,進行局部圖像增強處理。
6.一種基于表格識別的表格文字信息提取的系統,其特征在于,包括:
提取單元,用于利用圖像算法框架載入表格圖像;
篩選單元,用于識別定位出表格圖像中的所有橫線,確定中間位置的兩條橫線為候選線;
第一連線單元,用于將候選線兩端延長至左右邊界,左右邊界分別縱向延長至上下頂點;
第二連線單元,用于預設相鄰像素值,根據位置判斷沿縱向與橫向在所述相鄰像素值內是否有節點,左右邊界分別沿橫向與相鄰像素值內的節點進行連接,連接過程中,同時尋找縱向在相鄰像素值內的節點進行連接;
識別單元,用于對于表格中每個單元格內的信息分別進行提取識別。
7.根據權利要求6所述一種基于表格識別的表格文字信息提取的系統,其特征在于,所述提取單元還包括:預處理模塊,用于在所述利用圖像算法框架載入表格圖像之后,對表格信息進行預處理。
8.根據權利要求7所述一種基于表格識別的表格文字信息提取的系統,其特征在于,所述第一連線單元還包括:矯正模塊,用于在所述左右邊界分別縱向延長至上下頂點之后,對圖像進行矯正處理。
9.根據權利要求8所述一種基于表格識別的表格文字信息提取的系統,其特征在于,所述識別單元具體包括:標記模塊,用于根據表格結構特征對表格單元格進行ID標記;提取模塊,用于提取需要識別的表格對應標記的原圖中局部圖像;分析模塊,用于識別提取局部圖像內的文字信息。
10.根據權利要求9所述一種基于表格識別的表格文字信息提取的系統,其特征在于,所述識別單元還包括:圖像增強模塊,用于在所述識別提取局部圖像內的文字信息之前,進行局部圖像增強處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津瑟威蘭斯科技有限公司,未經天津瑟威蘭斯科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910182866.1/1.html,轉載請聲明來源鉆瓜專利網。





