[發明專利]一種Word文檔向LaTeX文檔轉換的方法及系統有效
| 申請號: | 201910143864.1 | 申請日: | 2019-02-27 |
| 公開(公告)號: | CN110147530B | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 宋軍;徐衡;朱超群;彭艷;張坤;曹威;吳雅笛 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G06F40/103 | 分類號: | G06F40/103;G06F16/35 |
| 代理公司: | 武漢知產時代知識產權代理有限公司 42238 | 代理人: | 金慧君 |
| 地址: | 430000 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 word 文檔 latex 轉換 方法 系統 | ||
1.一種Word文檔向LaTeX文檔轉換的方法,應用于計算機設備內的應用程序中,所述應用程序是響應人為觸發指令后才進行啟動的,其特征在于,包括:
S1、用戶向系統提交Microsoft Office Word源文件;
S2、系統打開所述Microsoft Office Word源文件;
S3、通過JACOB組件對源文件中的文本、圖片、表格、公式數據元素進行初始分析,獲取每個數據元素的類別以及在源文檔中的相對位置信息,并記錄分析后的類別及位置參數;具體步驟如下:
S31、對源文件中的所有數據元素的存儲狀態進行判斷,包括文本、公式和表格;
S32、通過JACOB組件中的Paragraphs、Item、Text接口記錄各元素的類別參數以及相對位置信息;
S4、利用Apache POI和JACOB技術提取源文件中的各類數據元素;具體步驟如下:
S41、結合上述類別參數并通過JACOB組件中的get(“Text”)、get(“Font”)、get(“Size”)提取源文檔文件中的文本數據內容、文本類型及文本格式;
S42、利用Apache POI中XWPFDocument的接口提取源文檔中圖片數據,使用FileOutputStream方法將所有圖片保存為本地文件;
S43、結合JACOB組件中getTable、以及ReadTable函數獲得源文檔中的表格數據;對于表格的規格是通過getTableRowsCount方法以及getTableColumnsCount方法獲得;
S44、結合S32中的類別參數,通過JACOB組件中copy方法,以及Toolkit中粘貼板子類函數getContents函數獲得源文檔公式數據;對于粘貼板的使用是通過Java類庫Toolkit工具類中getDefaultToolkit().getSystemClipboard()的Transferable變量獲得,并且通過getTransferData方法將數據進行轉換;
S45、記錄文本數據、圖片、表格、公式數據的相對位置;
S5、利用樸素貝葉斯算法對提取的數據元素進行分類判定以形成相對應的LaTeX文本元素信息流,基于層疊自動編碼器對源文件公式元素進行轉換以形成最佳的LaTeX公式元素信息流,其余數據元素按照相對位置信息轉換為目標文檔格式信息流;其中,利用樸素貝葉斯算法文本內容分類的具體步驟如下:
S51、將上述提取的文本數據元素通過JIEBA分詞算法轉換成向量;
S52、將提取到的文本數據分類問題轉化為一個二值分類問題,即任意未知文本數據樣本d必定屬于類別集合C={C0,C1},C0代表正文文本,C1代表標題文本;
S53、樸素貝葉斯算法識別每項文本數據類型,其中包括正文文本,標題文本兩類;
S54、對于一個擁有特征向量X的未知文本樣本d屬于類別C的概率表示為:
取概率最大者表示為該文本樣本的類別,以此判別文本類別形成對應的LaTeX文本元素;
S55、利用層疊自動編碼算法將所提取的公式數據進行編碼;
S56、將所得編碼結果與系統內部公式模板庫中已有數據進行近似匹配;其中,匹配程度最高的判斷依據為層疊自動編碼算法結果和已知樣本的歐幾里得距離,其計算方式為:
其中,x,y分別代表層疊自動編碼算法輸出結果和已知樣本,x1、x2、…、y1、y2..yn代表公式編碼后每個向量空間的值
S57、將匹配度最高的公式模板數據輸入到系統公式轉換函數模塊WordMathToLaTeX中,轉換為LaTeX文檔識別的編碼方式;
S6、將上述相對位置信息與各目標數據元素信息流相結合,形成LaTeX目標文檔的信息流;
S7、將所述信息流寫入到目標文件中,從而轉換成LaTeX文檔。
2.根據權利要求1所述的一種Word文檔向LaTeX文檔轉換的方法,其特征在于,所述步驟S1中:所提交的Microsoft Office Word源文檔文件為.docx或.doc格式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910143864.1/1.html,轉載請聲明來源鉆瓜專利網。





