[發(fā)明專利]一種PDF文檔目錄的獲取方法及裝置在審
| 申請?zhí)枺?/td> | 201410428096.1 | 申請日: | 2014-08-27 |
| 公開(公告)號: | CN105447027A | 公開(公告)日: | 2016-03-30 |
| 發(fā)明(設計)人: | 劉利川 | 申請(專利權(quán))人: | 北大方正集團有限公司;北大方正信息產(chǎn)業(yè)集團有限公司;上海方正數(shù)字出版技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/21 |
| 代理公司: | 北京銀龍知識產(chǎn)權(quán)代理有限公司 11243 | 代理人: | 許靜;黃燦 |
| 地址: | 100871 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 pdf 文檔 目錄 獲取 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息抽取領(lǐng)域,特別是涉及一種PDF文檔目錄的獲取方法及裝置。
背景技術(shù)
PDF,全稱PortableDocumentFormat,即“便攜文檔格式”,是一種電子文檔格式,這種格式與操作平臺無關(guān),跨平臺特點突出,可在幾乎所有的平臺上使用。這一特性使它成為在Internet上進行電子文檔發(fā)行和數(shù)字化信息傳播的首選文檔格式,越來越多的圖書文獻資料首選PDF作為其電子發(fā)布的形式,如電子圖書、產(chǎn)品說明、公司公告、網(wǎng)絡資料、電子郵件等。PDF格式已成為用于將信息數(shù)字化的一個事實上的工業(yè)標準。
PDF格式有其鮮明的技術(shù)特色,如跨平臺性優(yōu)越;可集成多種媒體信息出版和發(fā)布,可集成超文本鏈接、聲音及動態(tài)影像等電子信息;提供了對網(wǎng)絡信息發(fā)布的支持。其中,在PDF的可信可靠,維護信息完整性與一致性及保持信息安全性上,最為使用者所稱道的則是其安全性,數(shù)字簽名或使用密碼保護。而其他格式則很容易地可以修改或編輯。
PDF的安全性首先保證了PDF文檔不能被編輯,至少不能被輕易修改;其次,可通過設置權(quán)限,限制用戶的內(nèi)容打印、內(nèi)容復制甚至是評論或批注的添加、修改或刪除。
PDF文檔只供閱讀,不能被修改,確保了內(nèi)容的完整性與其他特性。
PDF格式設計的初衷不是用來編輯的,對PDF文件內(nèi)的小部分變動可能問題不大,但對PDF文檔中的整塊文字或影像的修改就相當困難,即便使用市場上的有關(guān)工具,也無法避開這類限制。
目錄基本上是圖書的一個必要的組成部分,也是大多數(shù)其他形式資料的重要構(gòu)成成份,利用目錄可快速導航到所要查看的頁面,便于用戶檢索相關(guān)內(nèi)容。對于圖書的使用者來講,其作用重大。
基于PDF格式本身的上述特點,當人們欲對PDF文檔目錄進行編輯和修改是不太容易實現(xiàn)的。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種PDF文檔目錄的獲取方法及裝置,能夠解決現(xiàn)有技術(shù)對PDF文檔中的目錄進行修改和編輯存在困難的問題。
為了解決上述技術(shù)問題,本發(fā)明的實施例提供一種PDF文檔目錄的獲取方法,其中,包括:
對PDF文檔的體系結(jié)構(gòu)進行解析,獲取PDF文檔的交叉索引表;
對所述交叉索引表進行檢索,得到文件尾TRAILER字典;
對所述文件尾TRAILER字典進行分析,得到鍵值ROOT對應的目錄簿CATALOG字典;
對所述目錄簿CATALOG字典進行檢索,獲得所述PDF文檔的目錄。
其中,所述對PDF文檔的體系結(jié)構(gòu)進行解析,獲取PDF文檔的交叉索引表的步驟包括:
對PDF文檔的樹形層次數(shù)據(jù)結(jié)構(gòu)進行解析,獲取所述PDF文檔的交叉索引表。
其中,所述對所述TRAILER字典進行分析,得到鍵值ROOT對應的目錄簿CATALOG字典的步驟包括:
對所述TRAILER字典進行分析,獲取鍵值ROOT;
根據(jù)所述鍵值ROOT,獲取所述鍵值ROOT對應的目錄薄CATALOG字典。
其中,所述對所述目錄簿CATALOG字典進行檢索,獲得所述PDF文檔的目錄的步驟包括:
對所述目錄薄CATALOG字典進行檢索,獲取鍵值OUTLINES;
根據(jù)所述鍵值OUTLINES,獲取所述鍵值OUTLINES對應的目錄對象以及目錄對象中各目錄項的父級目錄項、兄級目錄項以及子級目錄項信息;
對所述各目錄項的父級目錄項、兄級目錄項和子級目錄項信息進行提取,獲得所述PDF文檔的目錄。
其中,所述對所述各目錄項的父級目錄項和子級目錄項進行提取的步驟包括:
步驟a,獲取所述目錄對象中一當前目錄項;
步驟b,根據(jù)所述各目錄項的父級目錄項以及子級目錄項信息,獲取所述當前目錄項的父級目錄項和所述當前目錄項的子級目錄項。
其中,所述對所述各目錄項的兄級目錄項進行提取的步驟包括:
步驟c,獲取所述目錄對象中一當前目錄項;其中,每個目錄項包含上一個PREV指針信息和下一個NEXT指針信息;
步驟d,根據(jù)所述當前目錄項的PREV指針信息,獲取所述當前目錄項的上一個兄級目錄項;其中,所述上一個兄級目錄為一新當前目錄項;和/或
根據(jù)所述當前目錄項的NEXT指針信息,獲取所述當前目錄項的下一個兄級目錄項;其中,所述下一個兄弟目錄項為一新當前目錄項;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北大方正集團有限公司;北大方正信息產(chǎn)業(yè)集團有限公司;上海方正數(shù)字出版技術(shù)有限公司,未經(jīng)北大方正集團有限公司;北大方正信息產(chǎn)業(yè)集團有限公司;上海方正數(shù)字出版技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410428096.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





