[發明專利]一種將PDF格式文件轉換為EPUB格式的方法及系統有效
| 申請號: | 201110213555.0 | 申請日: | 2011-07-28 |
| 公開(公告)號: | CN102332002A | 公開(公告)日: | 2012-01-25 |
| 發明(設計)人: | 王峰;晏檢平 | 申請(專利權)人: | 深圳市萬興軟件有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/21 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 彭愿潔;李文紅 |
| 地址: | 518110 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 pdf 格式文件 轉換 epub 格式 方法 系統 | ||
技術領域
本發明涉及文檔處理技術領域,特別是涉及一種將PDF格式文件轉換為EPUB格式的方法及系統。
背景技術
PDF是Portable?Document?Format(便攜文件格式)的縮寫,是一種電子文件格式。PDF文件格式以其卓越的特性成為在互聯網上進行電子文檔發行和格式化信息傳播的理想文件格式。當前,在互聯網上發布的科技論文大部分以PDF格式提交。但是,因為PDF文件是根據坐標來排版的,而小型設備上很難絕對定位,所以PDF文件在小型設備或者移動設備上不能自適應頁面。現有技術中,為了在小型設備或者移動設備上更好地顯示PDF文件的內容,通常將PDF格式文件轉換為EPUB格式。
EPUB格式是一種電子圖書標準,屬于一種可以“自動重新編排”的內容;也就是文字內容可以根據閱讀設備的特性,以最適于閱讀的方式顯示。EPUB檔案內部使用了XHTML或DTBook(一種由DAISY?Consortium提出的XML標準)來展現文字、并以zip壓縮格式來包裹檔案內容。
現有技術中,將PDF格式文件轉換為EPUB格式的方法主要有兩種:一種是只提取PDF格式文件中的文本,圖片去除。顯然該方式存在圖片缺失的缺點。另一種方式是對PDF格式文件的每一頁進行截圖。由于截圖時會導致分辨率下降,在小型設備上閱讀時,文字更加難以識別。
發明內容
本發明的目的是提供一種將PDF格式文件轉換為EPUB格式的方法及系統,使得轉換后的EPUB格式文件能夠圖文并茂,并且轉換后的EPUB格式文件中,圖像元素與文本元素的相對位置關系與原PDF格式文件相同。
為實現上述目的,本發明提供了如下方案:
一種將PDF格式文件轉換為EPUB格式的方法,包括:
識別PDF格式文件中的文本元素、圖像元素;
獲取所述文本元素的坐標和所述圖像元素的坐標;
根據所述文本元素的坐標和所述圖像元素的坐標,確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和圖像元素的相對位置關系與PDF格式文件中的文本元素和圖像元素的相對位置關系相同;
按照確定的位置,生成HTML格式文件;
根據所述HTML格式文件,生成EPUB格式文件。
優選的,所述根據所述文本元素的坐標和所述圖像元素的坐標,確定所述文本元素和所述圖像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和圖像元素的相對位置關系與PDF格式文件中的文本元素和圖像元素的相對位置關系相同,包括:
根據所述文本元素的坐標和所述圖像元素的坐標,將原本位于所述圖像元素左邊或上方的所述文本元素,定位在所述圖像元素上方;將原本位于所述圖像元素右邊或下方的所述文本元素,定位在所述圖像元素下方。
優選的,所述根據所述文本元素的坐標和所述圖像元素的坐標,將原本位于所述圖像元素左邊或上方的所述文本元素,定位在所述圖像元素上方;將原本位于所述圖像元素右邊或下方的所述文本元素,定位在所述圖像元素下方,包括:
判斷所述文本元素的右下點的縱坐標是否小于所述圖像元素的左上點的縱坐標;
如果是,則將所述文本元素定位在所述圖像元素的上方;
否則,判斷所述文本元素的右下點的橫坐標是否小于所述圖像元素的左上點的橫坐標;
如果是,則將所述文本元素定位在所述圖像元素的上方;
否則,將所述文本元素定位在所述圖像元素的下方。
優選的,所述根據所述文本元素的坐標和所述圖像元素的坐標,將原本位于所述圖像元素左邊或上方的所述文本元素,定位在所述圖像元素上方;將原本位于所述圖像元素右邊或下方的所述文本元素,定位在所述圖像元素下方,包括:
判斷所述文本元素的左上點的縱坐標是否大于所述圖像元素的右下點的縱坐標;
如果是,則將所述文本元素定位在所述圖像元素的下方;
否則,判斷所述文本元素的左上點的橫坐標是否大于所述圖像元素的右下點的橫坐標;
如果是,則將所述文本元素定位在所述圖像元素的下方;
否則,將所述文本元素定位在所述圖像元素的上方。
優選的,所述根據所述HTML格式文件,生成EPUB格式文件,包括:
生成包括container.xml文件以及后綴名為opf、ncx在內的EPUB格式所必須的文件;
將所述HTML格式文件,以及所述EPUB格式所必須的文件,壓縮成后綴名為EPUB的壓縮包。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市萬興軟件有限公司,未經深圳市萬興軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110213555.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種即插即用光伏發電并網系統檢測裝置
- 下一篇:彈簧疲勞強度檢測裝置





