[發(fā)明專利]表格信息提取方法、表格模板配置方法和電子設(shè)備在審
| 申請?zhí)枺?/td> | 202211435725.4 | 申請日: | 2022-11-16 |
| 公開(公告)號: | CN115759020A | 公開(公告)日: | 2023-03-07 |
| 發(fā)明(設(shè)計)人: | 王健;袁野 | 申請(專利權(quán))人: | 上海弘璣信息技術(shù)有限公司 |
| 主分類號: | G06F40/18 | 分類號: | G06F40/18;G06F40/186;G06F40/117 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 唐正瑜 |
| 地址: | 201240 上海市閔*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 表格 信息 提取 方法 模板 配置 電子設(shè)備 | ||
本申請?zhí)峁┝艘环N表格信息提取方法、表格模板配置方法和電子設(shè)備,其中,該方法包括:獲取待處理文檔對應(yīng)的目標表格模板,其中,所述待處理文檔中包含目標格式的表格;根據(jù)所述目標表格模板,確定出所述目標格式的表格的邊界標記;根據(jù)所述邊界標記,在所述待處理文檔中確定出目標表格內(nèi)容。
技術(shù)領(lǐng)域
本申請涉及信息提取技術(shù)領(lǐng)域,具體而言,涉及一種表格信息提取方法、表格模板配置方法和電子設(shè)備。
背景技術(shù)
在對文檔的處理中包括一項重要工作是針對文檔中的表格進行提取。針對有框表可以使用表格識別算法先識別表格、識別文字的方式實現(xiàn)表格信息的提取。但是目前并非所有的表格都是有完整的框的表格,一些表格是無框表,并非將每一項信息落在一個實線格子中,這就導(dǎo)致針對這類表格的信息提取存在困難。
發(fā)明內(nèi)容
本申請的目的在于提供一種表格信息提取方法、表格模板配置方法和電子設(shè)備,以改善無框表中的信息提取難度大的問題。
第一方面,本發(fā)明提供一種表格信息提取方法,包括:獲取待處理文檔對應(yīng)的目標表格模板,其中,所述待處理文檔中包含目標格式的表格;根據(jù)所述目標表格模板,確定出所述目標格式的表格的邊界標記;根據(jù)所述邊界標記,在所述待處理文檔中確定出目標表格內(nèi)容。
在本申請實施例提供的方法中,通過配置表格模板,可以基于該表格模板提取出目標格式的表格的邊界標記,從而可以基于該邊界標記在待處理文檔確定出該待處理文檔中所包含的目標格式的表格,從而實現(xiàn)表格的識別提取不再局限于有框表,提高表格信息提取的適用場景。
在可選的實施方式中,所述邊界標記包括:文檔邊界標記和頁內(nèi)邊界標記;
所述根據(jù)所述邊界標記,在所述待處理文檔中確定出目標表格內(nèi)容,包括:根據(jù)所述文檔邊界標記,在所述待處理文檔中確定出表格覆蓋區(qū)域;根據(jù)所述頁內(nèi)邊界標記,在所述表格覆蓋區(qū)域中提取每一頁中的表格區(qū)域;根據(jù)每一頁的所述表格區(qū)域,確定出目標表格內(nèi)容。
在上述實施方式,通過設(shè)置兩類邊界標記,通過文檔邊界標記可以提取出文檔中的表格覆蓋的區(qū)域,然后再基于頁內(nèi)邊界標記篩選出每一頁中的有效的表格區(qū)域,可以更準確地篩選出表格內(nèi)容。
在可選的實施方式中,所述文檔邊界標記包括:文檔上邊界標記和文檔下邊界標記;
所述根據(jù)所述文檔邊界標記,在所述待處理文檔中確定出表格覆蓋區(qū)域,包括:根據(jù)所述文檔上邊界標記,在所述待處理文檔中確定出表格起始位;根據(jù)所述文檔下邊界標記,在所述待處理文檔中確定出表格終止位,其中,所述表格起始位與所述表格終止位之間形成表格覆蓋區(qū)域。
在可選的實施方式中,所述文檔邊界標記包括:文檔上邊界標記;
所述根據(jù)所述文檔邊界標記,在所述待處理文檔中確定出表格覆蓋區(qū)域,包括:根據(jù)所述文檔上邊界標記,在所述待處理文檔中確定出表格起始位;將所述待處理文檔的結(jié)束位置確定為表格終止位,其中,所述表格起始位與所述表格終止位之間形成表格覆蓋區(qū)域。
在上述實施方式中,通過對文檔上邊界標記和文檔下邊界標記的作用可以更好地定位表格覆蓋區(qū)域。進一步地,針對無文檔下邊界標記的也可以采用文檔的末端作為表格終止位,從而可以更好地適應(yīng)文檔的變化,提高文檔中的表格信息提取的靈活性。
在可選的實施方式中,所述根據(jù)所述文檔邊界標記,在所述待處理文檔中確定出表格覆蓋區(qū)域,包括:
對所述待處理文檔進行文本識別,以確定出所述待處理文檔中所包含的文本對象集;
根據(jù)所述文檔邊界標記在所述待處理文檔的文本對象集進行篩選,以確定出所述待處理文檔中的表格覆蓋區(qū)域。
在可選的實施方式中,所述文檔邊界標記包括:文檔邊界關(guān)鍵字、文檔邊界正則表達式、文檔邊界關(guān)鍵字和相對偏移量、文檔邊界正則表達式和相對偏移量中的任意一組;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海弘璣信息技術(shù)有限公司,未經(jīng)上海弘璣信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211435725.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





