[發明專利]一種LaTeX文檔向Word文檔轉換的方法及系統有效
| 申請號: | 201910143863.7 | 申請日: | 2019-02-27 |
| 公開(公告)號: | CN110147534B | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 宋軍;徐衡;朱超群;彭艷;曹威;張坤;吳雅笛 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G06F40/151 | 分類號: | G06F40/151 |
| 代理公司: | 武漢知產時代知識產權代理有限公司 42238 | 代理人: | 金慧君 |
| 地址: | 430000 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 latex 文檔 word 轉換 方法 系統 | ||
1.一種LaTeX文檔向Word文檔轉換的方法,其特征在于,包括如下步驟:
S1、用戶向系統提交LaTeX源文件;
S2、系統打開所述LaTeX源文件;
S3、通過JACOB組件對源文件中的文本、圖片、表格、公式數據元素進行初始分析,獲取每個數據元素的類別以及在源文檔中的相對位置信息,并記錄分析后的類別參數及位置參數;
S4、利用Apache POI和JACOB技術提取源文件中的各類數據元素;
S5、利用樸素貝葉斯算法對提取的文本元素進行分類判定以形成相對應的Word文本元素信息流,基于層疊自動編碼器對源文件公式元素進行轉換以形成最佳的Word公式元素信息流,其余數據元素直接按照相對位置信息直接轉換為目標文檔格式信息流;
S6、利用上述元素信息流,結合LaTeX源文件中圖片、表格、段落、公式元素的相對位置信息,生成最終的目標文檔信息流;
S7、將形成的目標文檔信息流寫入到Word文檔中;
所述步驟S4包括:
S41、結合上述類別參數并通過JACOB組件中的get(“Text”)、get(“Font”)、get(“Size”)提取源文檔文件中的文本數據內容、文本類型及文本格式;
S42、利用Apache POI中XWPFDocument的接口提取源文檔中圖片數據,使用FileOutputStream方法將所有圖片保存為本地文件;
S43、結合JACOB組件中getTable、以及ReadTable函數獲得源文檔中的表格數據;對于表格的規格是通過getTableRowsCount方法以及getTableColumnsCount方法獲得;
S44、結合S3中的類別參數,通過JACOB組件中copy方法,以及Toolkit中粘貼板子類函數getContents函數獲得源文檔公式數據;對于粘貼板的使用是通過Java類庫Toolkit工具類中getDefaultToolkit().getSystemClipboard()的Transferable變量獲得,并且通過getTransferData方法將數據進行轉換;
S45、記錄文本數據、圖片、表格、公式數據的相對位置;
所述步驟S5包括:
S51、將上述提取的文本數據元素通過JIEBA分詞算法轉換成向量;
S52、將提取到的文本數據分類問題轉化為一個二值分類問題,即任意未知文本數據樣本d必定屬于類別集合C={C0,C1},C0代表正文文本,C1代表標題文本;
S53、樸素貝葉斯算法識別每項文本數據類型,其中包括正文文本,標題文本兩類;
S54、對于一個擁有特征向量H的未知文本樣本d屬于類別C的概率表示為:
取概率最大者表示為該文本樣本的類別,以此判別文本類別形成對應的Word文本元素;
S55、利用層疊自動編碼算法將所提取的公式數據進行編碼;
S56、將所得編碼結果與系統內部公式模板庫中已有數據進行近似匹配;
S57、將匹配度最高的公式模板數據輸入到系統公式轉換函數模塊WordMathToLaTeX中,轉換為Word文檔識別的編碼方式;
所述步驟S57中,匹配度最高的判斷依據為層疊自動編碼算法結果和已知樣本的歐幾里得距離,其計算方式為:
其中x,y分別代表層疊自動編碼算法輸出結果和已知樣本,x1、x2、…xn,y1、y2...yn代表公式編碼后每個向量空間的值。
2.根據權利要求1所述的一種LaTeX文檔向Word文檔轉換的方法,其特征在于,所述步驟S2中:系統通過調用Apache JACOB組件中openDocument方法打開該LaTeX源文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910143863.7/1.html,轉載請聲明來源鉆瓜專利網。





