[發明專利]一種用于HTML轉換為Word文檔的方法及裝置在審
| 申請號: | 201510802212.6 | 申請日: | 2015-11-19 |
| 公開(公告)號: | CN105426480A | 公開(公告)日: | 2016-03-23 |
| 發明(設計)人: | 李振華;梅紅波;李旸;何彪 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京華沛德權律師事務所 11302 | 代理人: | 房德權 |
| 地址: | 430070 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 html 轉換 word 文檔 方法 裝置 | ||
技術領域
本發明涉及辦公自動化技術領域,特別是涉及一種用于HTML轉換為Word文檔的方法及裝置。
背景技術
HTML格式文件是在Web瀏覽器上瀏覽的文件,作為一種標記語言,HTML具有簡易性、可擴展性、平臺無關性、通用性等特點,因此,HTML格式文件在WEB瀏覽器上廣泛應用,但是,HTML文檔在格式上不如DOCX文檔功能豐富,特別是在撰寫各類報告的時候,很多用戶都習慣制作成企業內部所慣用的報告或報表格式。而且MS-Word的圖形化界面以及其便捷高效的文本編輯方式也是Web編輯器無法企及的。
現有的Word格式轉換技術中,通常是通過JACOB(JAVACOMBridge)將要轉換的內容寫入Word格式的文檔中。本發明人發現:使用JACOB的Java的應用程序,其目標系統必須是Windows操作系統,也就是說,采用JACOB的方式進行格式轉換的平臺只能是Windows操作系統,對于Linux操作系統不適用。顯然,在Linux操作系統日益廣泛使用的今天,該方法限制了許多用戶使用。
發明內容
本發明提供了一種用于HTML轉換為Word文檔的方法及裝置,能夠跨平臺的將HTML文本轉換為Word文本。其中,一種用于HTML轉換為Word文檔的方法,包括:
解析HTML文本,從解析結果中獲取文本內容和文本樣式;
用具有Word文檔排版風格的Java實體類將所述文本內容和所述文本樣式組成XML文件;
將所述XML文件以及對應的資源文件、配置文件進行壓縮,得到壓縮后的文件;
讀取所述壓縮后的文件的擴展名,將所述壓縮后的文件的擴展名轉換為Word文檔的擴展名。
所述用具有Word文檔排版風格的Java實體類將所述文本內容和所述文本樣式組成XML文件,具體包括:
從所述文本內容中獲取頁眉、頁腳和正文,從所述文本樣式中獲取頁眉的樣式、頁腳的樣式以及正文的樣式;
按照具有Word文檔排版風格的Java實體類,將所述頁眉及其樣式,所述頁腳及其樣式,以及所述正文及其樣式組成XML文件。
所述用具有Word文檔排版風格的Java實體類將所述文本內容和所述文本樣式組成XML文件,具體包括:
從所述文本內容中獲取正文中的每個段落,對每個段落分別獲取所述段落中的所有的字符串;
從所述文本樣式中獲取所述正文的樣式中的各字符串對應的引用信息、排版樣式;
用具有Word文檔排版風格的Java實體類將所有的字符串和所述字符串對應的引用信息、排版樣式組成XML文件。
所述將所述XML文件以及對應的資源文件、配置文件進行壓縮,具體包括:
獲取所述XML文件中的每個組成部分,對每個組成部分獲取對應的資源文件和配置文件,將所述XML文件中的每個組成部分及其對應的資源文件和配置文件放置在同一地址中組成數據包,對所述數據包壓縮,得到壓縮后的文件。
所述解析HTML文本,從解析結果中獲取文本內容和文本樣式,具體包括:用HTMLParser解析HTML文本,從解析結果中獲取文本內容和文本樣式。
一種用于HTML轉換為Word文檔的裝置,包括:
解析模塊,用于解析HTML文本,從解析結果中獲取文本內容和文本樣式;
重組模塊,用于用具有Word文檔排版風格的Java實體類將所述文本內容和所述文本樣式組成XML文件;
壓縮模塊,用于將所述XML文件以及對應的資源文件、配置文件進行壓縮,得到壓縮后的文件;
發布模塊,用于讀取所述壓縮后的文件的擴展名,將所述壓縮后的文件的擴展名轉換為Word文檔的擴展名。
所述重組模塊,具體包括:
第一獲取子模塊,用于從所述文本內容中獲取頁眉、頁腳和正文;
第二獲取子模塊,用于從所述文本樣式中獲取頁眉的樣式、頁腳的樣式以及正文的樣式;
第一重組子模塊,用于按照具有Word文檔排版風格的Java實體類,將所述頁眉及其樣式,所述頁腳及其樣式,以及所述正文及其樣式組成XML文件。
所述重組模塊,具體包括:
第三獲取子模塊,用于從所述文本內容中正文中的每個段落,對每個段落分別獲取所述段落中的所有的字符串;
第四獲取子模塊,用于從所述文本樣式中獲取所述正文的樣式中的各字符串對應的引用信息、排版樣式;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510802212.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:網頁腳本動態生成的鏈接的提取方法及裝置
- 下一篇:一種格式保留的數據脫敏方法





