[發明專利]表格信息提取方法、表格模板配置方法和電子設備在審
| 申請號: | 202211435725.4 | 申請日: | 2022-11-16 |
| 公開(公告)號: | CN115759020A | 公開(公告)日: | 2023-03-07 |
| 發明(設計)人: | 王健;袁野 | 申請(專利權)人: | 上海弘璣信息技術有限公司 |
| 主分類號: | G06F40/18 | 分類號: | G06F40/18;G06F40/186;G06F40/117 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 唐正瑜 |
| 地址: | 201240 上海市閔*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 表格 信息 提取 方法 模板 配置 電子設備 | ||
1.一種表格信息提取方法,其特征在于,包括:
獲取待處理文檔對應的目標表格模板,其中,所述待處理文檔中包含目標格式的表格;
根據所述目標表格模板,確定出所述目標格式的表格的邊界標記;
根據所述邊界標記,在所述待處理文檔中確定出目標表格內容。
2.根據權利要求1所述的方法,其特征在于,所述邊界標記包括:文檔邊界標記和頁內邊界標記;
所述根據所述邊界標記,在所述待處理文檔中確定出目標表格內容,包括:
根據所述文檔邊界標記,在所述待處理文檔中確定出表格覆蓋區域;
根據所述頁內邊界標記,在所述表格覆蓋區域中提取每一頁中的表格區域;
根據每一頁的所述表格區域,確定出目標表格內容。
3.根據權利要求2所述的方法,其特征在于,所述文檔邊界標記包括:文檔上邊界標記和文檔下邊界標記,或者,所述文檔邊界標記包括:文檔上邊界標記;
所述根據所述文檔邊界標記,在所述待處理文檔中確定出表格覆蓋區域,包括:根據所述文檔上邊界標記,在所述待處理文檔中確定出表格起始位;根據所述文檔下邊界標記,在所述待處理文檔中確定出表格終止位,其中,所述表格起始位與所述表格終止位之間形成表格覆蓋區域;或者,
所述根據所述文檔邊界標記,在所述待處理文檔中確定出表格覆蓋區域,包括:
根據所述文檔上邊界標記,在所述待處理文檔中確定出表格起始位;
將所述待處理文檔的結束位置確定為表格終止位,其中,所述表格起始位與所述表格終止位之間形成表格覆蓋區域。
4.根據權利要求2所述的方法,其特征在于,所述根據所述文檔邊界標記,在所述待處理文檔中確定出表格覆蓋區域,包括:
對所述待處理文檔進行文本識別,以確定出所述待處理文檔中所包含的文本對象集;
根據所述文檔邊界標記在所述待處理文檔的文本對象集進行篩選,以確定出所述待處理文檔中的表格覆蓋區域。
5.根據權利要求4所述的方法,其特征在于,所述文檔邊界標記包括:文檔邊界關鍵字、文檔邊界正則表達式、文檔邊界關鍵字和相對偏移量、文檔邊界正則表達式和相對偏移量中的任意一組;
所述根據所述文檔邊界標記在所述待處理文檔的文本對象集進行篩選,以確定出所述待處理文檔中的表格覆蓋區域,包括:
在所述待處理文檔的文本對象集篩選出所述文檔邊界關鍵字,以所述文檔邊界關鍵字的位置確定為所述待處理文檔的文檔邊界,以所述文檔邊界之間的文本對象,作為待處理文檔的表格覆蓋區域;或者,
在所述待處理文檔的文本對象集篩選所述文檔邊界關鍵字的第一位置,以所述文檔邊界關鍵字為基準,在文本對象集中確定出所述文檔邊界關鍵字的所述相對偏移量的第二位置,以確定出所述待處理文檔的文檔邊界,將文檔邊界之間的文本對象作為待處理文檔的表格覆蓋區域;或者,
在所述待處理文檔的文本對象集篩選出所述文檔邊界正則表達式,以所述文檔邊界正則表達式的位置確定為所述待處理文檔的文檔邊界,以所述文檔邊界之間的文本對象,作為待處理文檔的表格覆蓋區域;或者,
在所述待處理文檔的文本對象集篩選所述文檔邊界正則表達式的第三位置,以所述文檔邊界正則表達式為基準,在文本對象集中確定出所述文檔邊界正則表達式的所述相對偏移量的第四位置,以確定出所述待處理文檔的文檔邊界,將文檔邊界之間的文本對象作為待處理文檔的表格覆蓋區域。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海弘璣信息技術有限公司,未經上海弘璣信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211435725.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于人工智能的增強混合學習系統
- 下一篇:一種基于機器視覺的目標定位系統
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





