[發明專利]一種PDF等版式文檔中識別表格的方法有效
| 申請號: | 202110598830.9 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113343815B | 公開(公告)日: | 2022-06-07 |
| 發明(設計)人: | 安永進;魯林 | 申請(專利權)人: | 北森云計算有限公司 |
| 主分類號: | G06V30/413 | 分類號: | G06V30/413;G06V30/414;G06F40/177;G06F40/174 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 徐靜 |
| 地址: | 610041 四川省成都市*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 pdf 版式 文檔 識別 表格 方法 | ||
本發明公開了一種PDF等版式文檔中識別表格的方法,包括以下步驟:在PDF頁面渲染過程中,記錄頁面狀態,忽略隱藏線條,記錄有效的橫向線段和縱向線段;合并近似共線且相交或近似相交的橫向線段和縱向線段;找到所有橫向線段和縱向線段的交點和兩側端點;劃分出多個互不聯通的點線區域,將交點不超過4個的點線區域作為無效區域,多個相鄰的無效區域作為無連通區域組并確定其單元格;針對交點超過4個的點線區域,得到每個單元格的坐標及邊線;將每個單元格組劃分為若干個表格行;得到表格整體的行數和列數;根據坐標設置單元格內的內容。本發明識別單元格更準確,不會因文本坐標出現漏識別或錯識別,能準確提取單元格的行列特征。
技術領域
本發明涉及電數字數據處理技術領域,尤其涉及一種PDF等版式文檔中識別表格的方法。
背景技術
版式文檔是版面呈現效果固定的電子文檔,與Word(doc、docx)等流式文檔相對,其顯示效果與軟硬件平臺獨立,在各種設備上閱讀、打印時具有較強的一致性。PDF是目前最流行的一種版式文檔格式,同類的格式還有OFD、CEB、SEP、EPUB等。
PDF是Portable Document Format的簡稱,意為“便攜式文檔格式”。PDF文件格式與操作系統平臺無關,它可以忠實地跨平臺再現原始文檔格式(Docx,Html等文檔在不同平臺或不同軟件中打開顯示的樣式可能會不同),所以其被廣泛用于制度文檔、合同、政府或企業文件等方面。這一特點使它成為在Internet上進行電子文檔發行和數字化信息傳播的理想文檔格式。
PDF中支持顯示表格,但和Docx和Html等格式中明確的表格邏輯對象不同的是,PDF中的表格其實是若干條獨立的線單獨繪制的,表格中的文字通過計算相對頁面偏移后,直接繪制到頁面給定位置。這樣打開一個pdf文件后,經過上面的渲染,我們就可以看到PDF中的表格了。
PDF表格識別任務可以分為兩個子任務:表格區域定位和表格內單元格及其內容的提取。
現有的針對表格區域定位問題的方法,主要有:
1.根據垂直和水平線條交叉確定表格;
2.根據機器學習預訓練模型識別表格區域;
3.先識別單元格,再根據單元格確定表格。
現有的針對單元格及其內容識別的方法,主要有:
1.按水平垂直線條及其交點確定單元格位置和大??;
2.按文本的水平垂直投影或聚類距離確定單元格坐標。
中國專利申請“CN 111144300 A一種基于圖像識別的pdf表格結構識別方法”提出了一種基于神經網絡的表格區域定位方法;得到表格區域后,通過OCR方法得到文本塊坐標;再訓練兩個分別用于判斷任意兩個文本塊是否同行或同列的機器學習模型,來得到單元格的行信息和列信息。基于機器學習的表格區域定位方法,其準確率高度依賴于訓練數據質量,且針對其他語言的表格可能召回率很低。判斷文本塊同行或同列的模型,其效果也高度依賴訓練數據,不同的語言文本塊的寬高比或關系等可能并不一致,這可能導致模型只在訓練數據類似的PDF上面表現良好。此外先經過神經網絡模型再經過OCR處理流程較長,效率過低。
中國專利申請“CN 105589841 A一種PDF文檔表格識別的方法”提取文本作為行文本集合,提取線條作為線集合,通過關鍵詞檢索疑似表標題;位置接近的線條集合作為疑似表格線。根據疑似表標題和疑似表格線的存在情況,確定采用區域生長法或者檢測全線表和三線表。此方案針對未閉合的表格提取不全(有內框線,無外框線),較依賴文本特征,如遇到新的特征需要手動維護;且此方法只能識別表格區域和相關的線條文本,無法提取單元格及其相關的跨行跨列等信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北森云計算有限公司,未經北森云計算有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110598830.9/2.html,轉載請聲明來源鉆瓜專利網。





