[發明專利]表格信息跨頁識別方法、電子設備及計算機可讀存儲介質在審
| 申請號: | 201710959704.5 | 申請日: | 2017-10-16 |
| 公開(公告)號: | CN107844468A | 公開(公告)日: | 2018-03-27 |
| 發明(設計)人: | 蘇曉明;羅傲雪;汪偉;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/24 | 分類號: | G06F17/24 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙)44347 | 代理人: | 高杰,于志光 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 表格 信息 識別 方法 電子設備 計算機 可讀 存儲 介質 | ||
技術領域
本發明涉及計算機信息技術領域,尤其涉及一種表格信息跨頁識別方法、電子設備及計算機可讀存儲介質。
背景技術
現有針對PDF年報中表格的定位和識別,一般是基于OCR技術。但是,OCR技術僅能將表格中各個單元格的內容依照原始的相對位置抽取出來另作存儲,如果一張表格出現了跨頁現象,OCR技術很可能會將同一張表格誤認為是兩張或者多張表格,從而無法準確重塑原始表格所要表達的信息。故,現有技術中的表格信息跨頁識別方法設計不夠合理,亟需改進。
發明內容
有鑒于此,本發明提出一種表格信息跨頁識別方法、電子設備及計算機可讀存儲介質,通過分析指定文檔(如PDF文檔)中表格文字內容的位置信息和標簽信息,可以識別出表格(如PDF年報表格)中的跨頁情形,且重塑后表格信息損失小。
首先,為實現上述目的,本發明提出一種電子設備,所述電子設備包括存儲器和處理器,所述存儲器上存儲有可在所述處理器上運行的表格信息跨頁識別系統,所述表格信息跨頁識別系統被所述處理器執行時實現如下步驟:
獲取指定文檔中每行文字的位置信息和標簽信息;
針對該指定文檔中相鄰的前一表格和下一表格,獲取前一表格文字內容的位置信息、標簽信息和下一表格文字內容的位置信息、標簽信息;
比對下一表格每列文字的左邊沿坐標與前一表格對應每列文字的左邊沿坐標;
當下一表格每列文字的左邊沿坐標與前一表格對應每列文字的左邊沿坐標都相同時,比對下一表格每行文字的頁碼與前一表格每行文字的頁碼;及
若下一表格每行文字的頁碼與前一表格每行文字的頁碼存在不同,則判定下一表格與前一表格為存在跨頁情形的同一表格。
優選地,每行文字的位置信息包括:每行文字的左邊沿坐標、上邊沿坐標、文本寬度、文本長度;每行文字的標簽信息包括:每行文字在所述指定文檔的頁碼、頁面長度、頁面寬度。
優選地,所述表格信息跨頁識別系統被所述處理器執行時還用于實現如下步驟:
當下一表格每列文字的左邊沿坐標與前一表格對應每列文字的左邊沿坐標存在不同時,則判定下一表格與前一表格為不同表格。
優選地,所述表格信息跨頁識別系統被所述處理器執行時還用于實現如下步驟:
若下一表格每列文字的左邊沿坐標與前一表格對應每列文字的左邊沿坐標之間的差值都小于預設閾值,則判定下一表格每列文字的左邊沿坐標與前一表格對應每列文字的左邊沿坐標都相同。
優選地,所述表格信息跨頁識別系統被所述處理器執行時還用于實現如下步驟:
若下一表格每行文字的頁碼與前一表格每行文字的頁碼都相同,則判定下一表格與前一表格為不存在跨頁情形的同一表格。
此外,為實現上述目的,本發明還提供一種表格信息跨頁識別方法,該方法應用于電子設備,所述方法包括:
獲取指定文檔中每行文字的位置信息和標簽信息;
針對該指定文檔中相鄰的前一表格和下一表格,獲取前一表格文字內容的位置信息、標簽信息和下一表格文字內容的位置信息、標簽信息;
比對下一表格每列文字的左邊沿坐標與前一表格對應每列文字的左邊沿坐標;
當下一表格每列文字的左邊沿坐標與前一表格對應每列文字的左邊沿坐標都相同時,比對下一表格每行文字的頁碼與前一表格每行文字的頁碼;及
若下一表格每行文字的頁碼與前一表格每行文字的頁碼存在不同,則判定下一表格與前一表格為存在跨頁情形的同一表格。
優選地,每行文字的位置信息包括:每行文字的左邊沿坐標、上邊沿坐標、文本寬度、文本長度;每行文字的標簽信息包括:每行文字在所述指定文檔的頁碼、頁面長度、頁面寬度。
優選地,該方法還包括步驟:
當下一表格每列文字的左邊沿坐標與前一表格對應每列文字的左邊沿坐標存在不同時,則判定下一表格與前一表格為不同表格;
若下一表格每列文字的左邊沿坐標與前一表格對應每列文字的左邊沿坐標之間的差值都小于預設閾值,則判定下一表格每列文字的左邊沿坐標與前一表格對應每列文字的左邊沿坐標都相同;及
若下一表格每行文字的頁碼與前一表格每行文字的頁碼都相同,則判定下一表格與前一表格為不存在跨頁情形的同一表格。
優選地,所述表格信息跨頁識別方法還可以設置為如下步驟:
獲取指定文檔中每行文字的位置信息和標簽信息;
定位該指定文檔中的特定表格,獲取該特定表格文字內容的位置信息和標簽信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710959704.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種煤炭地下氣化燃空區測繪系統
- 下一篇:工程測量領域曲線定標用固定件
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





