[發明專利]PDF文件的預覽方法、生成方法及處理方法有效
| 申請號: | 201811068441.X | 申請日: | 2018-09-13 |
| 公開(公告)號: | CN109446490B | 公開(公告)日: | 2023-07-21 |
| 發明(設計)人: | 許衛鵬 | 申請(專利權)人: | 杭州索驥數據科技有限公司 |
| 主分類號: | G06F40/14 | 分類號: | G06F40/14;G06F16/951 |
| 代理公司: | 杭州天昊專利代理事務所(特殊普通合伙) 33283 | 代理人: | 吳金姿 |
| 地址: | 310000 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | pdf 文件 預覽 方法 生成 處理 | ||
本發明提供一種PDF文件的預覽方法、生成方法以及處理方法,該預覽方法包括:解析原始PDF文件,獲得原始PDF文件中的文本和樣式、字體以及圖片;將獲取的文本和樣式中文字部分的順序以絕對定位的方式隨機打亂,形成亂序文件;將每一頁PDF所形成的亂序文件進行存儲,同時關聯存儲該頁PDF中文字所對應的字體文件和圖片文件;獲取輸入的PDF預覽信息;根據PDF預覽信息查詢存儲的亂序文件,獲得PDF預覽信息所在的那一頁PDF或多頁的PDF;根據絕對定位的方式獲得文字的順序排列,獲取與文字對應的字體文件和圖片文件并進行重組;并在瀏覽器端以PDF的樣式展示重組后的且滿足PDF預覽信息的那一頁PDF或多頁的PDF。
技術領域
本發明涉及一種文件處理技術,且特別涉及一種PDF文件的預覽方法、生成方法及處理方法。
背景技術
PDF文件(便攜式文檔格式)是由Adobe?Systems用于與應用程序、操作系統、硬件無關的方式進行文件交換所發展出的文件格式。目前互聯網上大部分的內容或信息都以PDF文件的形式向用戶展示。用戶在使用中需要對PDF文件進行預覽或編輯。
對于預覽而言,目前主要有三種方式,第一種方式是用戶通過下載整個PDF文件來實現文檔內容閱讀。在該種方法中,必須下載完整的PDF,文件可能過大且無法控制用戶可以閱讀的權限,同時極容易被爬蟲爬取,不利于版權保護。第二種方式是服務器將PDF轉換成圖片提供預覽,該種方法中PDF文件轉換成圖片時,圖片過大會浪費傳輸流量和時間。第三種方式是服務器將PDF轉換成純文本提供預覽,轉換成純文本時,無法還原PDF文件的原貌,可能造成用戶閱讀困難。
對于編輯而言,第一種是使用官方的PDF閱讀器對PDF進行編輯操作,官方的PDF閱讀器編輯PDF流程繁瑣、可操作性差且其安裝所占用的計算機內存也非常的大,使用非常的不方便。第二種方法是將PDF轉換成word格式進行編輯,再重新生成PDF,這種方式生成PDF的代碼過于繁瑣,不夠靈活,且難以形成完整的解決方案。
發明內容
本發明為了克服現有技術的不足,提供一種PDF文件的預覽方法、生成方法及處理方法。
為了實現上述目的,本發明提供一種PDF文件的預覽方法,該方法包括:
解析原始PDF文件,獲得原始PDF文件中的文本和樣式、字體以及圖片;
將獲取的文本和樣式中文字部分的順序以絕對定位的方式隨機打亂,形成亂序文件;
將每一頁PDF所形成的亂序文件進行存儲,同時關聯存儲該頁PDF中文字所對應的字體文件和圖片文件;
獲取輸入的PDF預覽信息;
根據PDF預覽信息查詢存儲的亂序文件,獲得PDF預覽信息所在的那一頁PDF或多頁的PDF;
根據絕對定位的方式獲得文字的順序排列,同時獲取與文字對應的字體文件和圖片文件并進行重組;并在瀏覽器端以PDF的樣式展示重組后的且滿足PDF預覽信息的那一頁PDF或多頁的PDF。
根據本發明的一實施例,在獲得原始PDF文件中的文本和樣式后將文本和樣式轉換為可縮放矢量圖形,再將可縮放矢量圖形中的文字打亂形成亂序文件。
根據本發明的一實施例,在將每一頁PDF所形成的亂序文件進行存儲時,將該頁中與文字對應的圖片文件和字體文件分別存儲至亂序文件存儲文件夾下的圖片目錄和字體目錄。
根據本發明的一實施例,所述PDF預覽信息包括原始PDF文件的頁數或原始PDF文件中所包含的詞語。
另一方面,本發明還提供一種PDF文件的生成方法,該方法包括:
解析原始PDF文件,獲得原始PDF文件中的文本和樣式、字體以及圖片;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州索驥數據科技有限公司,未經杭州索驥數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811068441.X/2.html,轉載請聲明來源鉆瓜專利網。





