[發(fā)明專利]文檔圖像中的無(wú)邊框表格解析技術(shù)在審
| 申請(qǐng)?zhí)枺?/td> | 201910587312.X | 申請(qǐng)日: | 2019-06-28 |
| 公開(公告)號(hào): | CN110413962A | 公開(公告)日: | 2019-11-05 |
| 發(fā)明(設(shè)計(jì))人: | 徐茂龍;楊鴻健;程晨 | 申請(qǐng)(專利權(quán))人: | 南京智錄信息科技有限公司 |
| 主分類號(hào): | G06F17/22 | 分類號(hào): | G06F17/22;G06F17/24 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 210000 江蘇省南京市江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本塊 無(wú)邊框 表格解析 表格區(qū)域 文檔圖像 橫軸 文本 位置信息獲取 數(shù)據(jù)判斷 位置坐標(biāo) 縱向單元 對(duì)齊 合并 行提取 左邊界 方差 判定 修正 分行 中文 | ||
本發(fā)明涉及一種文檔圖像中的無(wú)邊框表格解析方法,所述方法包括步驟:識(shí)別出無(wú)邊框表格區(qū)域部分;將所述位置范圍內(nèi)的文本進(jìn)行合并;根據(jù)無(wú)邊框表格區(qū)域和區(qū)域內(nèi)文本相關(guān)數(shù)據(jù),將文本塊進(jìn)行分行,并獲取每一行的文本塊數(shù)量,將區(qū)域中含有最多文本塊的行提取出來(lái),并根據(jù)順序切分為列,并根據(jù)每列的文本塊位置信息獲取列的取值范圍;計(jì)算獲取當(dāng)前列文本塊橫軸位置數(shù)值的最大值、最小值、方差、變動(dòng)范圍、25到75百分位的變動(dòng)范圍。根據(jù)上述計(jì)算得到的數(shù)據(jù)判斷列中文本的對(duì)齊類型;對(duì)第一列的左邊界值設(shè)為0,依次將其右邊的所有列的橫軸位置坐標(biāo)相對(duì)第一列進(jìn)行修正,同時(shí)進(jìn)行橫向和縱向單元格合并的情況判定和處理。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種文檔圖像中無(wú)邊框表格解析方法
背景技術(shù)
隨著電腦的不斷普及,無(wú)紙化辦公得到越來(lái)越多的應(yīng)用,各種各樣的文檔也大量的出現(xiàn)在用戶的面前。
以可移植文檔格式(Portable Document Format,PDF)、office文檔為例,PDF文件格式以其卓越的特性成為在Internet上進(jìn)行電子文檔發(fā)行和格式化信息傳播的理想文件格式,在將PDF格式的文檔轉(zhuǎn)換office格式的文檔時(shí),面臨較多的困難。
譬如PDF格式文檔中的表象為表格的對(duì)象,在其內(nèi)部是由很多彼此無(wú)任何邏輯關(guān)系的線條或多邊形組成的。在將PDF轉(zhuǎn)換為其他格式的文檔,特別轉(zhuǎn)換為office類的文檔時(shí),由于PDF沒(méi)有表格元素,很難跟office 類文檔兼容,使轉(zhuǎn)換出的文檔的排版、及編輯效果都很差。
在將諸如PDF格式文檔等原文檔中的表格轉(zhuǎn)換為其他文檔格式的表格時(shí),如何提高轉(zhuǎn)換出的文檔的排版及編輯效果,是文檔應(yīng)用領(lǐng)域研究的方向之一。
發(fā)明內(nèi)容
一種文檔圖像中的無(wú)邊框表格解析方法,包括以下步驟
利用預(yù)先得到的頁(yè)面中元素位置信息,檢測(cè)出無(wú)邊框表格的潛在區(qū)域;
利用預(yù)先得到的頁(yè)面中文本及其位置信息,對(duì)文本進(jìn)行行內(nèi),行之間的合并與標(biāo)記;
檢測(cè)標(biāo)記結(jié)果,針對(duì)標(biāo)記類型,將相鄰的文本行合并為文本行塊;
針對(duì)所有合并后的文本行塊,嘗試對(duì)其合并得到無(wú)邊框表格在頁(yè)面中的高度值范圍;
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖做簡(jiǎn)單的介紹,應(yīng)當(dāng)理解,以下附圖僅展示出了本發(fā)明的某些實(shí)施例,因此不應(yīng)被看作是對(duì)范圍的限定,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖
圖1為本發(fā)明所述的文檔圖像中無(wú)邊框表格的解析方法的流程圖
圖2為實(shí)施例中包含無(wú)邊框表格的原始文檔圖像
圖3為文檔圖像經(jīng)過(guò)切分后輸出的狀態(tài)圖
圖4為文檔圖像中文本元素合并為text_obj后輸出的狀態(tài)圖
圖5為增加multi_text_line標(biāo)記后輸出的狀態(tài)圖
圖6為合并multi_text_line為multi_text_line_block后輸出的狀態(tài)圖
圖7為識(shí)別出的無(wú)邊框表格區(qū)域在頁(yè)面文檔中的區(qū)域結(jié)果狀態(tài)圖
具體實(shí)施方式
利用預(yù)先處理得到的頁(yè)面圖片內(nèi)有邊框表格、圖片、頁(yè)眉頁(yè)腳三種元素在頁(yè)面中位置信息,將頁(yè)面按照y 軸(高度值)分割得到無(wú)邊框表格潛在區(qū)域(part_list),分割后的各部分不再包含上述三種元素,分割后得到的潛在區(qū)域如圖3所示,本例中文檔圖像不包含圖片、頁(yè)眉頁(yè)腳和有邊框表格,所以圖3中兩條水平紅線間區(qū)域即為潛在區(qū)域。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京智錄信息科技有限公司,未經(jīng)南京智錄信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910587312.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 顯示文本塊、文本塊處理的方法和裝置
- 基于文本塊的機(jī)器人程序文件處理方法和系統(tǒng)
- 檢測(cè)文檔閱讀順序的方法和裝置
- 數(shù)據(jù)存儲(chǔ)、查詢方法、裝置和計(jì)算設(shè)備
- 文本圖像的校正方法、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本識(shí)別方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 表單識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 提取文本信息的方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本分塊方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- PDF表單信息提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 表格數(shù)據(jù)展示裝置和方法
- 一種基于區(qū)域識(shí)別與分割的PDF表格數(shù)據(jù)解析方法
- 文檔圖像中的表格解析方法及裝置
- 表格數(shù)據(jù)解析方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)表格自動(dòng)填充的系統(tǒng)和方法
- 一種復(fù)雜的表格圖像解析方法
- 文本解析方法、裝置、終端設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 數(shù)據(jù)解析方法、裝置、計(jì)算機(jī)設(shè)備和可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義分割的有線表格圖片解析方法和裝置
- 表格解析方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- PDF文檔中的表格矢量解析方法及裝置
- 用于檢測(cè)表格的方法和裝置
- 一種圖片中表格的識(shí)別方法及裝置
- 表格數(shù)據(jù)顯示方法
- 表格的處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 數(shù)據(jù)呈現(xiàn)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 表格重建方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種公告文檔表格數(shù)據(jù)識(shí)別方法及終端
- 圖像處理方法和裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 圖像處理方法和裝置、電子設(shè)備和存儲(chǔ)介質(zhì)





