[發(fā)明專利]一種PDF的表格信息提取方法及相關(guān)裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010922836.2 | 申請(qǐng)日: | 2020-09-04 |
| 公開(kāi)(公告)號(hào): | CN112069991A | 公開(kāi)(公告)日: | 2020-12-11 |
| 發(fā)明(設(shè)計(jì))人: | 余昊旻;張青龍;陳強(qiáng);丁明;蔣坡良 | 申請(qǐng)(專利權(quán))人: | 稅友軟件集團(tuán)股份有限公司 |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06F40/205;G06K9/46 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 丁曼曼 |
| 地址: | 310053 浙江省杭*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 pdf 表格 信息 提取 方法 相關(guān) 裝置 | ||
本申請(qǐng)公開(kāi)了一種PDF的表格信息提取方法,包括:對(duì)PDF文件進(jìn)行文字解析,得到文字和文字位置信息;通過(guò)圖像識(shí)別算法對(duì)所述PDF文件對(duì)應(yīng)的圖片進(jìn)行閉合輪廓識(shí)別處理,得到矩形輪廓數(shù)組;根據(jù)所述矩形輪廓數(shù)組和所述文字位置信息對(duì)所述文字進(jìn)行結(jié)構(gòu)化處理,得到表格信息。通過(guò)圖像識(shí)別方式對(duì)PDF文件對(duì)應(yīng)的圖片識(shí)別出對(duì)應(yīng)的表格輪廓,然后根據(jù)表格輪廓拼接出表格信息,提高了表格信息的提取效率,保證了提取效果。本申請(qǐng)還公開(kāi)了一種PDF的表格信息提取裝置、計(jì)算裝置以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),具有以上有益效果。
技術(shù)領(lǐng)域
本申請(qǐng)涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種PDF的表格信息提取方法、表格信息提取裝置、計(jì)算裝置以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著信息技術(shù)的不斷發(fā)展,目前出現(xiàn)了各種各樣的文檔文件格式。其中,便攜式文檔格式(PDF,Portable Document Format),是一種用獨(dú)立于應(yīng)用程序、硬件、操作系統(tǒng)的方式呈現(xiàn)文檔的文件格式。
通過(guò)PDF規(guī)范可以了解到,PDF呈現(xiàn)出的圖像是由矢量圖,位圖,文本和可交互元素組成的。其中的表格也是由矢量圖,位圖和文本組成的。當(dāng)讀取PDF的時(shí)候并不可以像讀取Excel一樣直觀的讀取到幾行幾列。
現(xiàn)有技術(shù)中,PDFBox、Tabula、Itext等技術(shù)方案,都是基于PDF規(guī)范解析的文本數(shù)據(jù)讀取。但是,由于PDF規(guī)范沒(méi)有定義表格,所以無(wú)法直接提取出渲染出的表格內(nèi)容。當(dāng)表格的內(nèi)容比較復(fù)雜難以識(shí)別時(shí),導(dǎo)致表格內(nèi)容的識(shí)別率降低,無(wú)法提取出表格的內(nèi)容。
因此,如何提高PDF表格信息提取的效率是本領(lǐng)域技術(shù)人員關(guān)注的重點(diǎn)問(wèn)題。
發(fā)明內(nèi)容
本申請(qǐng)的目的是提供一種PDF的表格信息提取方法、表格信息提取裝置、計(jì)算裝置以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),通過(guò)圖像識(shí)別方式對(duì)PDF文件對(duì)應(yīng)的圖片識(shí)別出對(duì)應(yīng)的表格輪廓,然后根據(jù)表格輪廓拼接出表格信息,提高了表格信息的提取效率,保證了提取效果。
為解決上述技術(shù)問(wèn)題,本申請(qǐng)?zhí)峁┮环NPDF的表格信息提取方法,包括:
對(duì)PDF文件進(jìn)行文字解析,得到文字和文字位置信息;
通過(guò)圖像識(shí)別算法對(duì)所述PDF文件對(duì)應(yīng)的圖片進(jìn)行閉合輪廓識(shí)別處理,得到矩形輪廓數(shù)組;
根據(jù)所述矩形輪廓數(shù)組和所述文字位置信息對(duì)所述文字進(jìn)行結(jié)構(gòu)化處理,得到表格信息。
可選的,對(duì)PDF文件進(jìn)行文字解析,得到文字和文字位置信息,包括:
根據(jù)PDF解析庫(kù)對(duì)所述PDF文件進(jìn)行文字解析,得到所述文字和所述文字位置信息。
可選的,通過(guò)圖像識(shí)別算法對(duì)所述PDF文件對(duì)應(yīng)的圖片進(jìn)行閉合輪廓識(shí)別處理,得到矩形輪廓數(shù)組,包括:
將所述PDF文件轉(zhuǎn)換為圖片;
將所述圖片進(jìn)行二值化處理,得到黑白圖片;
通過(guò)閉合輪廓算法對(duì)所述黑白圖片進(jìn)行識(shí)別,得到所述矩形區(qū)域;
以數(shù)組將所述矩形區(qū)域轉(zhuǎn)換為所述矩形輪廓數(shù)組。
可選的,根據(jù)所述矩形輪廓數(shù)組和所述文字位置信息對(duì)所述文字進(jìn)行結(jié)構(gòu)化處理,得到表格信息,包括:
根據(jù)所述文字位置信息在所述矩形輪廓數(shù)組中進(jìn)行查詢,確定每個(gè)文字在所述矩形數(shù)組中的位置;
根據(jù)所述位置將所有文字進(jìn)行拼接,得到所述表格信息。
本申請(qǐng)還提供一種PDF的表格信息提取裝置,包括:
文字解析模塊,用于對(duì)PDF文件進(jìn)行文字解析,得到文字和文字位置信息;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于稅友軟件集團(tuán)股份有限公司,未經(jīng)稅友軟件集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010922836.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:基于航班實(shí)況的信息展示方法、系統(tǒng)、電子設(shè)備及介質(zhì)
- 下一篇:一種用于風(fēng)力發(fā)電設(shè)備的軸承座加工的自動(dòng)清洗設(shè)備
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 版式表格的結(jié)構(gòu)處理方法和系統(tǒng)
- 多欄多列表格的展示方法
- 一種在移動(dòng)端展示長(zhǎng)表格的交互方法及系統(tǒng)裝置
- 一種在移動(dòng)端縱向展示長(zhǎng)表格的交互方法及系統(tǒng)裝置
- 一種在移動(dòng)端橫向展示長(zhǎng)表格的交互方法及系統(tǒng)裝置
- 表格圖像解析方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種針對(duì)PDF文檔表格提取優(yōu)化方法及系統(tǒng)
- 一種自動(dòng)生成表格數(shù)據(jù)的方法及裝置
- 一種批量合并表格內(nèi)容的方法、系統(tǒng)、裝置和存儲(chǔ)介質(zhì)
- 表格渲染顯示方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





