[發(fā)明專利]PDF文件處理方法及裝置在審
| 申請?zhí)枺?/td> | 201710213998.7 | 申請日: | 2017-04-01 |
| 公開(公告)號: | CN108664457A | 公開(公告)日: | 2018-10-16 |
| 發(fā)明(設(shè)計)人: | 郭相軍 | 申請(專利權(quán))人: | 北大方正集團有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06F17/21 | 分類號: | G06F17/21 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 楊澤;劉芳 |
| 地址: | 100871 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 字體 字節(jié)數(shù) 復(fù)合 內(nèi)容流 解析 查找 | ||
本發(fā)明提供一種PDF文件處理方法及裝置,其中方法包括:判斷PDF文件中待拆分的字符是否為復(fù)合字體;若為復(fù)合字體,則查找字符的CMap;對查找到的CMap進行解析,確定字符的字節(jié)數(shù);根據(jù)字符的字節(jié)數(shù)以及PDF文件的內(nèi)容流,對字符進行拆分。本發(fā)明提供的PDF文件處理方法及裝置,通過判斷PDF文件中待拆分的字符是否為復(fù)合字體,若為復(fù)合字體,則查找字符的CMap,對查找到的CMap進行解析,確定字符的字節(jié)數(shù),并根據(jù)字符的字節(jié)數(shù)以及PDF文件的內(nèi)容流,對字符進行拆分,能夠?qū)崿F(xiàn)對PDF文件中的復(fù)雜字體精確、快速的拆分,滿足既包含簡單字體又包含復(fù)合字體的PDF文件的拆分需求。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù),尤其涉及一種PDF文件處理方法及裝置。
背景技術(shù)
PDF(Portable Document Format,便攜式文檔格式),是一種與應(yīng)用程序、操作系統(tǒng)、硬件無關(guān)的文件格式,可以將文字、字型、格式、顏色及獨立于設(shè)備和分辨率的圖形圖像等封裝在一個文件中,集成度和安全可靠性都較高。
在某些情況下,我們需要把PDF中顯示的字符串進行拆分。如果PDF文件中都是簡單字體,那么拆分就比較容易,因為簡單字體一個字節(jié)代表一個字符,那么把待拆分的字符串按字節(jié)一個一個進行拆分即可。但對于包含復(fù)合字體的PDF文件來說,由于復(fù)合字體的復(fù)雜性,無法直接采用簡單字體的拆分方法。因此,目前急需一種既可以針對簡單字體又可以針對復(fù)合字體進行拆分的方法。
發(fā)明內(nèi)容
本發(fā)明提供一種PDF文件處理方法及裝置,用以解決現(xiàn)有技術(shù)中PDF文件中復(fù)合字體難以直接拆分的技術(shù)問題。
本發(fā)明提供一種PDF文件處理方法,包括:
判斷PDF文件中待拆分的字符是否為復(fù)合字體;
若為復(fù)合字體,則查找所述字符的CMap;
對查找到的CMap進行解析,確定所述字符的字節(jié)數(shù);
根據(jù)所述字符的字節(jié)數(shù)以及PDF文件的內(nèi)容流,對字符進行拆分。
進一步地,所述方法還包括:
向用戶顯示PDF文件中包含的全部字體類型,所述字體類型包括下述至少一項:Type1、TrueType、Type3、CID;
接收用戶根據(jù)所述PDF文件中的全部字體類型輸入的需要拆分的字體類型;
相應(yīng)的,判斷PDF文件中待拆分的字符是否為復(fù)合字體,包括:
判斷待拆分的字符是否屬于用戶輸入的需要拆分的字體類型:若否,則跳過該字符進行下一字符的拆分;若是,則判斷所述待拆分的字符是否為復(fù)合字體。
進一步地,所述方法還包括:
接收用戶輸入的優(yōu)先級信息,所述優(yōu)先級信息包括各個字體類型對應(yīng)的優(yōu)先級;
相應(yīng)的,在對PDF文件中的字符進行拆分時,優(yōu)先級高的先進行拆分,優(yōu)先級低的后進行拆分。
進一步地,所述方法還包括:
接收用戶輸入的水印替換信息,所述水印替換信息包括用戶期望使用的水印;
在對PDF文件中的字符進行拆分完成之后,查找PDF文件中的水印;
根據(jù)所述用戶期望使用的水印,對PDF文件中原有的水印進行替換。
進一步地,在根據(jù)所述字符的字節(jié)數(shù)以及PDF文件的內(nèi)容流,對字符進行拆分之后,還包括:
利用PDF中顯示字符串的操作符,把字符拆開來顯示。
本發(fā)明還提供一種PDF文件處理裝置,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北大方正集團有限公司;北京北大方正電子有限公司,未經(jīng)北大方正集團有限公司;北京北大方正電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710213998.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 可節(jié)省數(shù)字運算的數(shù)據(jù)轉(zhuǎn)換方法及數(shù)據(jù)轉(zhuǎn)換電路
- 跨平臺的字節(jié)序處理方法、裝置和字節(jié)碼運行平臺
- 數(shù)據(jù)壓縮、解壓縮的方法及系統(tǒng)
- 文本截斷、上傳方法和裝置
- 一種對字節(jié)數(shù)組進行校驗修正的方法和智能設(shè)備
- 數(shù)字ID混淆方法、混淆數(shù)字ID校驗方法及裝置
- 文件數(shù)據(jù)處理方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 一種串行EEPROM型號的識別方法、裝置及存儲介質(zhì)
- 一種降低音頻編碼速率的方法及系統(tǒng)
- 一種降低時間敏感幀轉(zhuǎn)發(fā)時延的方法、裝置及設(shè)備





