[發(fā)明專利]一種完整識別PDF文件頁眉頁腳的技術在審
| 申請?zhí)枺?/td> | 201910587311.5 | 申請日: | 2019-06-28 |
| 公開(公告)號: | CN110543810A | 公開(公告)日: | 2019-12-06 |
| 發(fā)明(設計)人: | 徐茂龍;楊鴻健;程晨 | 申請(專利權)人: | 南京智錄信息科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210000 江蘇省南京市江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 頁眉頁腳 頁面 存儲 原始存儲數據 存儲數據 距離判斷 特征識別 圖片格式 文本數據 文檔數據 頁面頭部 正文數據 存儲頁 行數據 最底端 多頁 頁眉 解析 查找 分類 分析 | ||
1.一種完整識別PDF文件頁眉頁腳的方法,其特征在于,包括以下步驟:
(1)針對正常非純圖片(掃面件)格式的PDF文件,利用pdf.js開源軟件獲取原始數據;
(2)判斷是否存在頁眉頁腳;
(3)查找頁面內頁眉頁腳的縱向范圍值;
(4)對查找結果1進行修正;
(5)針對上述結果偏差較大或純圖片格式的PDF文件,利用圖像識別獲取到頁面中的線段以及文本等相關信息;
(6)查找頁面中頁眉頁腳及其特征;
(7)對查找結果2進行修正。
2.根據權利要求1所述的方法,其特征在于,針判斷是否存在頁眉頁腳的步驟包括:
(1)將提取出的文本按照文本在文件中的順序設置id;
(2)對上述文本根據獲取到的文本縱向位置值,按照從小到大進行排序,得到頁面中文本的最小縱向位置值;
(3)將id值最大的文本縱向位置值與上述結果進行比對,根據兩者的差值與閾值的比較,判斷兩段文本是否為同一行;
(4)若上述兩段文本不為同一行,則當前頁面存在頁眉頁腳,否則不存在頁眉頁腳。
3.根據權利要求1所述的方法,其特征在于,查找頁面內頁眉頁腳的縱向范圍值的步驟包括:
(1)針對權利要求2的結果,若當前頁面存在頁眉頁腳,根據頁面中縱向位置值最小的文本,查找與之同行的其他文本,并得到這些文本中對應的最大id值;
(2)所有id值小于上述查找到的id值的文本為當前頁面的頁眉頁腳,并根據文本的縱向位置值判斷是頁眉還是頁腳,同時獲取頁眉的最小縱向位置值,頁腳的最大縱向位置值。
4.根據權利要求1所述的方法,其特征在于,對查找結果1進行修正的判斷標準:
(1)頁眉與頁腳的中間區(qū)域的需超過頁面的一半;
(2)如果頁眉的y值的最小值減去頁腳的最大值小于一半,則拋棄剛剛獲取到的頁眉頁腳數據。
5.根據權利要求1所述的方法,其特征在于,查找頁面中頁眉頁腳及其特征的步驟包括:
根據以下規(guī)定的特征查找頁眉頁腳:
(1)如果都有一條橫線,并且橫線的位置是相對固定的,那么判定是頁眉頁腳的分界線,
上半部的線的上面是頁眉,下半部的下面是頁腳;
(2)沒有一條橫線的情況下,對于每一頁上半部的前三行的文本以及下半部分的最后五行文本進行判斷:
(i)如果在每一頁的同樣的位置(三分之一上半部或者下半部的三分之一)出現(xiàn)居中,居左,居右等類似特征的文本塊,且文本塊占用的寬度,高度都相似,則為頁眉頁腳;
(ii)對這些文本塊的字符串內容進行數字特征識別,如果符合連續(xù)數字的特征,則含有頁碼的頁眉頁腳。
6.根據權利要求1所述的方法,其特征在于,查找結果2進行修正的步驟包括:
對PDF文件內的頁眉頁腳模式進行分類,具體如下:
(1)根據一定閾值去將初步獲取到的頁眉頁腳文本塊的相關數據,包括:個數,位置,高度,寬度,橫線位置;
對每個數據按照一定差值進行分類,每個數據的分類部有對應的id;
(2)將這些id生成數字字符串,去重,即可獲得頁眉頁腳類型,以及每個類型具體出現(xiàn)多少次;
(3)根據出現(xiàn)的次數和比例來確認頁眉頁腳。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京智錄信息科技有限公司,未經南京智錄信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910587311.5/1.html,轉載請聲明來源鉆瓜專利網。





