[發(fā)明專利]一種PDF文件文本域的創(chuàng)建方法、創(chuàng)建裝置及終端設備有效
| 申請?zhí)枺?/td> | 201711176252.X | 申請日: | 2017-11-22 |
| 公開(公告)號: | CN108062297B | 公開(公告)日: | 2021-06-15 |
| 發(fā)明(設計)人: | 晏檢平 | 申請(專利權)人: | 深圳市億圖軟件有限公司 |
| 主分類號: | G06F40/18 | 分類號: | G06F40/18;G06F40/166 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 何明倫 |
| 地址: | 518000 廣東省深圳市南山區(qū)粵海街道高*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 pdf 文件 文本 創(chuàng)建 方法 裝置 終端設備 | ||
1.一種PDF文件文本域的創(chuàng)建方法,其特征在于,包括:
獲取待處理頁面內的所有預設對象,并獲取所述預設對象在所述待處理頁面中的位置;
根據所述預設對象在所述待處理頁面中的位置提取所述預設對象的預設范圍內的文本信息;
為所述預設對象創(chuàng)建文本域,并將所述文本信息作為所述文本域的名稱;
所述獲取待處理頁面內的所有預設對象,包括:
獲取所述待處理頁面內的所有線條,對所述待處理頁面內的所有線條進行預處理,并基于所述預處理后的線條的相交關系劃分表格;
確定劃分到同一表格內的線條是否存在封閉的表格邊框線;
若劃分到同一表格內的線條存在封閉的表格邊框線,則獲取所述表格的單元格;
所述根據所述預設對象在所述待處理頁面中的位置提取所述預設對象的預設范圍內的文本信息,包括:
判斷所述單元格內部是否包含文本信息;
若所述單元格內部不包含文本信息,則在所述待處理頁面中提取所述單元格相鄰的單元格內的文本信息。
2.如權利要求1所述的PDF文件文本域的創(chuàng)建方法,其特征在于,在確定劃分到同一表格內的線條是否存在封閉的表格邊框線之后,還包括:
若劃分到同一表格內的線條存在封閉的表格邊框線,則獲取所述表格內不屬于封閉表格線的水平線條;
所述水平線條包括:水平路徑對象、連續(xù)的下劃線字符。
3.如權利要求1所述的PDF文件文本域的創(chuàng)建方法,其特征在于,所述獲取待處理頁面內的所有預設對象,還包括:
獲取所述待處理頁面內的所有由四段首尾相連的貝塞爾曲線組成的路徑對象;
判斷所述路徑對象中的每一段貝塞爾曲線是否為1/4圓弧段;
若所述路徑對象的每一段貝塞爾曲線均為1/4圓弧段,則將所述路徑對象定義為第一類單選框,并獲取所述第一類單選框;
若所述路徑對象中存在不是1/4圓弧段的貝塞爾曲線,則丟棄所述路徑對象。
4.如權利要求1所述的PDF文件文本域的創(chuàng)建方法,其特征在于,所述獲取待處理頁面內的所有預設對象,還包括:
獲取待處理頁面內的所有文本對象;
判斷所述文本對象中是否存在預設字符;
若所述文本對象中存在預設字符,則將該字符定義為第二類單選框,并獲取所述第二類單選框。
5.如權利要求3或4所述的PDF文件文本域的創(chuàng)建方法,其特征在于,在為所述預設對象創(chuàng)建文本域,并將所述文本信息作為所述文本域的名稱之后,包括:
根據所述單選框在所述待處理頁面中的位置對所述單選框進行分組。
6.一種PDF文件文本域的創(chuàng)建裝置,其特征在于,包括:
獲取單元,用于獲取待處理頁面內的所有預設對象,并獲取所述預設對象在所述待處理頁面中的位置;
提取單元,用于根據所述預設對象在所述待處理頁面中的位置提取所述預設對象的預設范圍內的文本信息;
創(chuàng)建單元,用于為所述預設對象創(chuàng)建文本域,并將所述文本信息作為所述文本域的名稱;
所述獲取單元包括:
預處理模塊,用于獲取所述待處理頁面內的所有線條,對所述待處理頁面內的所有線條進行預處理,并基于所述預處理后的線條的相交關系劃分表格;
確定模塊,用于確定劃分到同一表格內的線條是否存在封閉的表格邊框線;
獲取模塊,用于若劃分到同一表格內的線條存在封閉的表格邊框線,則獲取所述表格的單元格;
所述提取單元包括:
判斷模塊,用于判斷所述單元格內部是否包含文本信息;
提取模塊,用于若所述單元格內部不包含文本信息,則在所述待處理頁面中提取所述單元格相鄰的單元格內的文本信息。
7.一種終端設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權利要求1至5任一項所述方法的步驟。
8.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至5任一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市億圖軟件有限公司,未經深圳市億圖軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711176252.X/1.html,轉載請聲明來源鉆瓜專利網。
- 圖冊創(chuàng)建設備、圖冊創(chuàng)建方法和圖冊創(chuàng)建程序
- 一種使用創(chuàng)建接口來靈活創(chuàng)建對象的方法
- 報告創(chuàng)建系統(tǒng)、報告創(chuàng)建裝置以及報告創(chuàng)建方法
- 文本創(chuàng)建系統(tǒng)、文本創(chuàng)建裝置、文本創(chuàng)建方法
- 文檔創(chuàng)建設備、文檔創(chuàng)建系統(tǒng)及文檔創(chuàng)建方法
- 剪報創(chuàng)建方法和剪報創(chuàng)建系統(tǒng)
- 數(shù)據創(chuàng)建裝置、數(shù)據創(chuàng)建方法及數(shù)據創(chuàng)建程序
- 信息創(chuàng)建方法及信息創(chuàng)建裝置
- 報告創(chuàng)建系統(tǒng)和報告創(chuàng)建方法
- 創(chuàng)建改進的顏色的顏色創(chuàng)建裝置及顏色創(chuàng)建方法





