[發明專利]識別PDF文件中文本框的方法、裝置及計算機設備及存儲介質在審
| 申請號: | 202110184633.2 | 申請日: | 2021-02-08 |
| 公開(公告)號: | CN112818894A | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 邢振雨 | 申請(專利權)人: | 深圳萬興軟件有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 李翔宇 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 pdf 文件 文本框 方法 裝置 計算機 設備 存儲 介質 | ||
本發明實施例公開了一種識別PDF文件中文本框的方法、裝置、計算機設備及存儲介質,其中方法包括獲取目標PDF文件,并從所述目標PDF文件中獲取目標對象;解析所述目標對象以獲取所述目標對象的形狀,并根據所述目標對象的形狀將所述目標對象歸類至預設圖形集合中相應的子集合中,其中,所述預設圖形集合包括多個對應不同形狀的子集合;對所述預設圖形集合進行處理以獲得目標預設圖形集合;解析所述目標預設圖形集合并判斷所述目標預設圖形集合中的對象所對應的圖形區域是否存在文本對象以識別出所述目標PDF文件的文本框。本發明能夠識別并提取PDF文件中的文本框。
技術領域
本發明涉及文檔處理技術領域,尤其涉及一種識別PDF文件中文本框的方法、裝置、計算機設備及存儲介質。
背景技術
PDF(Portable Document Format)是一種電子文檔格式,是一種較為理想的用于電子閱讀的格式。但是PDF文件并不支持編輯,所以大多數時候,需要將DPF文件轉換成其它易于編輯的格式的文件,例如Word和PPT。現有的技術手段通常都是直接將PDF文件轉換成其它格式的文件,其在轉換的過程中無法識別PDF文件中的文本框信息,但是PDF文件是一種板式文件,其主要是由互相獨立的文本、圖片以及路徑等信息組合而成,并不包含文本框信息,而Word和PPT等文件是包含有文本框信息的,因而當將PDF文件轉換成其它格式的文件時候,會丟失文本框信息,導致文件顯示異常,無法進行編輯。
發明內容
本發明實施例提供了一種識別PDF文件中文本框的方法、裝置、計算機設備及存儲介質,可以識別PDF文件中的文本框,提高使用者的體驗。
第一方面,本發明實施例提供了一種識別PDF文件中文本框的方法,該方法具體包括:獲取目標PDF文件,并從所述目標PDF文件中獲取目標對象;解析所述目標對象以獲取所述目標對象的形狀,并根據所述目標對象的形狀將所述目標對象歸類至預設圖形集合中相應的子集合中,其中,所述預設圖形集合包括多個對應不同形狀的子集合;對所述預設圖形集合進行處理以獲得目標預設圖形集合;解析所述目標預設圖形集合并判斷所述目標預設圖形集合中的對象所對應的圖形區域是否存在文本對象以識別出所述目標PDF文件的文本框。
第二方面,本發明實施例還提供了一種識別PDF文件中文本框的裝置,該裝置具體包括:第一獲取單元,用于獲取目標PDF文件,并從所述目標PDF文件中獲取目標對象;第一解析單元,用于解析所述目標對象以獲取所述目標對象的形狀,并根據所述目標對象的形狀將所述目標對象歸類至預設圖形集合中相應的子集合中,其中,所述預設圖形集合包括多個對應不同形狀的子集合;預處理單元,用于對所述預設圖形集合進行處理以獲得目標預設圖形集合;識別單元,用于解析所述目標預設圖形集合并判斷所述目標預設圖形集合中的對象所對應的圖形區域是否存在文本對象以識別出所述目標PDF文件的文本框。
第三方面,本發明實施例還提供了一種計算機設備,其包括存儲器及處理器,所述存儲器上存儲有計算機程序,所述處理器執行所述計算機程序時實現上述方法。
第四方面,本發明實施例還提供了一種計算機可讀存儲介質,所述存儲介質存儲有計算機程序,所述計算機程序當被處理器執行時可實現上述方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳萬興軟件有限公司,未經深圳萬興軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110184633.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自助制章機用輸送系統
- 下一篇:一種電磁式液位傳感器及連鑄機





