[發明專利]一種LaTeX文檔向Word文檔轉換的方法及系統有效
| 申請號: | 201910143863.7 | 申請日: | 2019-02-27 |
| 公開(公告)號: | CN110147534B | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 宋軍;徐衡;朱超群;彭艷;曹威;張坤;吳雅笛 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G06F40/151 | 分類號: | G06F40/151 |
| 代理公司: | 武漢知產時代知識產權代理有限公司 42238 | 代理人: | 金慧君 |
| 地址: | 430000 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 latex 文檔 word 轉換 方法 系統 | ||
本發明提供了一種LaTeX文檔向Word文檔轉換的方法及系統,利用JACOB技術對文件中的文本、圖片、公式、表格等數據進行初始分析;利用Apache POI、JACOB技術提取源文件中的數據元素,并記錄各元素的相對位置信息;根據樸素貝葉斯算法對提取的各文本元素進行分類,基于層疊自動編碼器對源文件公式實現轉換;將所述相對位置信息與各數據元素相結合,形成Word目標文檔的信息流;將上述信息流寫入到目標文件中,從而轉換成最終的Word文檔。本發明能夠降低由Latex文檔向Microsoft Office Word文檔轉換的困難性和復雜性,方便用戶將復雜的科技文檔版式轉換為簡單的Word版式,提高了科研工作效率,該發明填補了當前國內由LaTeX文檔向Microsoft Office Word文檔智能轉換的領域空白。
技術領域
本發明涉及文檔轉換和數據處理領域,具體涉及一種Latex文檔向Word文檔轉換的方法及系統。
背景技術
TeX提供了一套功能強大并且十分靈活的排版語言,它多達900條指令,并且TeX有宏功能,用戶可以不斷地定義自己適用的新命令來擴展TeX系統的功能。Leslie Lamport開發的LaTeX是當今世界上最流行和使用最為廣泛的TeX宏集。Microsoft Office Word作為Office 套件的核心程序,提供了許多易于使用的文檔創建工具,也是目前市場上占有量最大的文字處理器。Word專用的文件格式Word文件(.docx)成為事實上最通用的文檔標準。文檔轉換是將Word、Pdf、Txt、Ooxml、Odf、Html等文檔格式進行轉化。例如日本黒木純提出的將 Ooxml、Odf的文檔轉換為HTML格式文檔的方法、Adobe Acrobat Professional軟件實現Word 格式和Pdf格式的轉換等。
在實現本發明過程中,發明人發現已有文檔轉換在技術實現和使用方面主要存在以下兩類問題:首先,現有的文檔轉換技術一般是針對少數源格式文檔和特定目標的格式文檔,轉化功能單一,用戶實際使用價值不高。其次,對于編碼方式不同的文檔實現轉換具有一定的困難性,例如LaTeX與Microsoft Office Word文檔之間的轉換難題。
發明內容
本發明要解決的技術問題在于,針對上述目前現有的文檔轉換技術轉化功能單一、實際使用價值不高的技術問題,提供了一種LaTeX 文檔向Word文檔轉換的方法及系統,能夠實現不同類型文檔之間的轉換,降低多文檔呈現的難度,提高文檔使用的高效性。
一種LaTeX 文檔向Word文檔轉換的方法,包括:
S1、用戶向系統提交LaTeX源文件;
S2、系統打開所述LaTeX源文件;
S3、通過JACOB組件對源文件中的文本、圖片、表格、公式數據元素進行初始分析,獲取每個數據元素的類別以及在源文檔中的相對位置信息,并記錄分析后的類別及位置參數;
S4、利用Apache POI和JACOB技術提取源文件中的各類數據元素;
S5、利用樸素貝葉斯算法對提取的文本元素進行分類判定以形成相對應的Word文本元素信息流,基于層疊自動編碼器對源文件公式元素進行轉換以形成最佳的Word公式元素信息流,其余數據元素直接按照相對位置信息直接轉換為目標文檔格式信息流;
S6、利用上述元素信息流,結合源LaTeX文件中圖片、表格、段落、公式元素的相對位置信息,生成最終的目標文檔信息流;
S7、將形成的目標文檔信息流寫入到Word文檔中。
進一步的,所述步驟S2中:系統通過調用Apache JACOB組件中openDocument方法打開該LaTeX源文檔。
進一步的,所述步驟S3包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910143863.7/2.html,轉載請聲明來源鉆瓜專利網。





