[發(fā)明專利]一種完整識(shí)別PDF文件頁(yè)眉頁(yè)腳的技術(shù)在審
| 申請(qǐng)?zhí)枺?/td> | 201910587311.5 | 申請(qǐng)日: | 2019-06-28 |
| 公開(公告)號(hào): | CN110543810A | 公開(公告)日: | 2019-12-06 |
| 發(fā)明(設(shè)計(jì))人: | 徐茂龍;楊鴻健;程晨 | 申請(qǐng)(專利權(quán))人: | 南京智錄信息科技有限公司 |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210000 江蘇省南京市江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 頁(yè)眉頁(yè)腳 頁(yè)面 存儲(chǔ) 原始存儲(chǔ)數(shù)據(jù) 存儲(chǔ)數(shù)據(jù) 距離判斷 特征識(shí)別 圖片格式 文本數(shù)據(jù) 文檔數(shù)據(jù) 頁(yè)面頭部 正文數(shù)據(jù) 存儲(chǔ)頁(yè) 行數(shù)據(jù) 最底端 多頁(yè) 頁(yè)眉 解析 查找 分類 分析 | ||
一種PDF文件頁(yè)眉頁(yè)腳識(shí)別的方法:解析PDF,得到PDF原始存儲(chǔ)數(shù)據(jù),根據(jù)每一頁(yè)進(jìn)行拆分。根據(jù)PDF頁(yè)面內(nèi)存儲(chǔ)數(shù)據(jù)的順序來識(shí)別頁(yè)眉頁(yè)腳;具體特征:在沒有頁(yè)眉頁(yè)腳的情況下,PDF文檔的數(shù)據(jù)是從上往下,從左往右開始逐個(gè)存儲(chǔ)的,但是當(dāng)有頁(yè)眉頁(yè)腳的情況下,PDF文檔是先存儲(chǔ)頁(yè)眉再存儲(chǔ)頁(yè)腳,然后是正文數(shù)據(jù)部分。根據(jù)文檔數(shù)據(jù)順序以及頁(yè)面最底端行數(shù)據(jù)的位置來獲取頁(yè)眉頁(yè)腳。根據(jù)文本數(shù)據(jù)的距離底端的距離判斷,另外對(duì)于純圖片格式的PDF文件,根據(jù)特征識(shí)別獲取頁(yè)眉頁(yè)腳。包括以下步驟:查找頁(yè)面頭部和尾部的頁(yè)眉頁(yè)腳特征,根據(jù)多頁(yè)的特征情況進(jìn)行分析,對(duì)于多種頁(yè)眉頁(yè)腳形式進(jìn)行分類。
技術(shù)領(lǐng)域:
本發(fā)明涉及到PDF(便攜式文檔格式)的一種頁(yè)眉頁(yè)腳數(shù)據(jù)分離的處理方法。
背景技術(shù):
1.目前幾乎所有的教育論文,上市公司公告都是以PDF文件格式發(fā)布于知網(wǎng),上交所,深交所等渠道,這個(gè)格式方便了大家跨越設(shè)備去閱讀,但是對(duì)于想要通過文檔獲取數(shù)據(jù)來說,提取這部分?jǐn)?shù)據(jù)較為復(fù)雜,如大海撈針,并且也沒有結(jié)構(gòu)化的數(shù)據(jù);
2.對(duì)PDF文件結(jié)構(gòu)化提取的都要做的處理是切割出頁(yè)眉頁(yè)腳區(qū)域以規(guī)避對(duì)原文主要內(nèi)容的污染;
3.對(duì)于純圖片格式的PDF文件來說,需要對(duì)頁(yè)面內(nèi)容進(jìn)行圖像識(shí)別(OCR) 獲取到所有框線與文本坐標(biāo)數(shù)據(jù),以及文本內(nèi)容;
4.對(duì)于正常格式的PDF文件來說,使用pdf.js等開源軟件可獲取解析PDF 文件后的數(shù)據(jù),進(jìn)一步提取可以獲取到頁(yè)面內(nèi)的框線的數(shù)據(jù)以及文本內(nèi)容和坐標(biāo)數(shù)據(jù)。
發(fā)明內(nèi)容:
本申請(qǐng)?zhí)峁┝薖DF文檔的頁(yè)眉頁(yè)腳識(shí)別方法與裝置,主要分為兩種處理方式:
1.正常格式的PDF文件處理
(1)獲取PDF文件的原始解析數(shù)據(jù);
(2)根據(jù)解析數(shù)據(jù)的順序以及其離頁(yè)面底部的距離來判斷是否屬于頁(yè)眉頁(yè)腳;
(3)對(duì)于在頁(yè)面上半部分的屬于頁(yè)眉;
(4)對(duì)于在頁(yè)面下半部分的屬于頁(yè)腳;
(5)對(duì)于頁(yè)眉頁(yè)腳中間區(qū)域過小的根據(jù)下面的算法進(jìn)行重新獲取。
2.純圖片或者非正常格式的頁(yè)眉頁(yè)腳識(shí)別
(1)查找頁(yè)面頭部和尾部的頁(yè)眉頁(yè)腳特征;
(2)根據(jù)多頁(yè)的特征情況進(jìn)行分析;
(3)對(duì)于多種頁(yè)眉頁(yè)腳形式進(jìn)行分類。
附圖說明:
為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖做簡(jiǎn)單的介紹,應(yīng)當(dāng)理解,以下附圖僅展示出了本發(fā)明的某些實(shí)施例,因此不應(yīng)被看作是對(duì)范圍的限定,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1為本發(fā)明所述的一種完整識(shí)別PDF文件頁(yè)眉頁(yè)腳技術(shù)的流程圖。
具體實(shí)施方法:
一、正常非純圖片(掃描件)格式的PDF文件
1.使用pdf.js開源軟件獲取解析PDF文件后的原始數(shù)據(jù),按照解析后的數(shù)據(jù)的順序提取文本的坐標(biāo)數(shù)據(jù)。
坐標(biāo)數(shù)據(jù)包括
x:離頁(yè)面左邊框的距離
y:離頁(yè)面底端的距離
w:文本數(shù)據(jù)的寬度
h:文本數(shù)據(jù)的高度
2.判斷是否存在頁(yè)眉頁(yè)腳:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京智錄信息科技有限公司,未經(jīng)南京智錄信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910587311.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種電力作業(yè)現(xiàn)場(chǎng)風(fēng)險(xiǎn)監(jiān)管入侵視頻識(shí)別方法
- 下一篇:一種基于深度學(xué)習(xí)的非配合式考試人員管理方法及其系統(tǒng)
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 信息處理裝置及其方法
- 一種頁(yè)眉或頁(yè)腳輸出位置調(diào)整方法、裝置、系統(tǒng)及設(shè)備
- 模式匹配引擎
- 利用VB實(shí)現(xiàn)水晶報(bào)表與WORD文檔合并的方法
- 版式電子文檔的頁(yè)眉頁(yè)腳識(shí)別方法及裝置
- 一種文檔頁(yè)眉頁(yè)腳調(diào)整方法及裝置
- 一種PDF文檔頁(yè)眉頁(yè)腳的編輯方法、裝置及電子設(shè)備
- 一種完整識(shí)別PDF文件頁(yè)眉頁(yè)腳的技術(shù)
- 動(dòng)態(tài)顯示或隱藏頁(yè)眉頁(yè)腳的方法、裝置、設(shè)備和介質(zhì)
- 一種文檔的頁(yè)眉頁(yè)腳編輯方法、裝置及電子設(shè)備
- 一種用于確定目標(biāo)頁(yè)面的頁(yè)面類型信息的方法和設(shè)備
- 一種用于識(shí)別WAP頁(yè)面的方法與設(shè)備
- 一種Web App加載方法及裝置
- 單頁(yè)面處理方法及裝置
- 確定原生頁(yè)面和H5頁(yè)面訪問次序的方法、裝置和系統(tǒng)
- 頁(yè)面生成方法及裝置
- 一種頁(yè)面對(duì)象自動(dòng)化測(cè)試方法
- 頁(yè)面生成方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種相似網(wǎng)絡(luò)頁(yè)面的搜索方法及設(shè)備
- 頁(yè)面管理方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 動(dòng)態(tài)存儲(chǔ)管理裝置及方法
- 一種存儲(chǔ)方法、服務(wù)器及存儲(chǔ)控制器
- 一種基于存儲(chǔ)系統(tǒng)的控制方法及裝置
- 一種信息的存儲(chǔ)控制方法
- 一種數(shù)據(jù)存儲(chǔ)方法及裝置
- 數(shù)據(jù)存儲(chǔ)方法、裝置、計(jì)算機(jī)設(shè)備以及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)存儲(chǔ)控制方法及裝置
- 存儲(chǔ)設(shè)備、存儲(chǔ)系統(tǒng)及存儲(chǔ)方法
- 物料存儲(chǔ)方法及系統(tǒng)
- 基于雙芯智能電表的數(shù)據(jù)分類存儲(chǔ)方法和裝置
- 一種信息歸并方法及系統(tǒng)
- 信息處理設(shè)備
- 一種數(shù)據(jù)存儲(chǔ)方法、數(shù)據(jù)查詢方法及相關(guān)設(shè)備
- 數(shù)據(jù)恢復(fù)的方法、裝置及副本管理服務(wù)器
- 一種用于IT系統(tǒng)運(yùn)維監(jiān)控?cái)?shù)據(jù)的存儲(chǔ)系統(tǒng)
- 一種基于區(qū)塊鏈的數(shù)據(jù)存儲(chǔ)方法、設(shè)備及存儲(chǔ)介質(zhì)
- 一種分布式文件存取方法、系統(tǒng)、介質(zhì)及設(shè)備
- 環(huán)境數(shù)據(jù)的壓縮方法及相關(guān)裝置
- 一種數(shù)據(jù)存儲(chǔ)方法及裝置
- 一種基于區(qū)塊鏈的數(shù)據(jù)備份方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





