[發明專利]一種基于機器識別的word文檔轉換方法、裝置及存儲介質有效
| 申請號: | 202310639865.1 | 申請日: | 2023-06-01 |
| 公開(公告)號: | CN116340263B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 陳德勇;李元海 | 申請(專利權)人: | 北京無憂創想信息技術有限公司 |
| 主分類號: | G06F16/11 | 分類號: | G06F16/11;G06F16/16;G06F8/73 |
| 代理公司: | 成都頂峰專利事務所(普通合伙) 51224 | 代理人: | 王袁輝 |
| 地址: | 100000 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 識別 word 文檔 轉換 方法 裝置 存儲 介質 | ||
1.一種基于機器識別的word文檔轉換方法,其特征在于,包括:
獲取目標word文檔,并將所述目標word文檔轉換為html文檔;
對所述html文檔進行樣式修正處理,得到樣式修正后的html文檔;
對所述樣式修正后的html文檔內的字符串進行段落劃分處理,得到預轉換文檔;
從所述預轉換文檔中的各個文本段落中,篩選出代碼文本段落,并將所述代碼文本段落輸入至代碼識別模型中進行代碼種類識別處理,得到所述代碼文本段落對應的代碼種類;
基于所述代碼文本段落對應的代碼種類,對所述預轉換文檔中的代碼文本段落進行編程語言標識處理,以在編程語言標識處理完成后,得到所述目標word文檔對應的html轉換文檔;
對所述html文檔進行樣式修正處理,得到樣式修正后的html文檔,包括:
對所述html文檔進行標簽過濾處理,以濾除所述html文檔中的無用標簽,得到預處理后的html文檔;
對所述預處理后的html文檔中的各個標簽進行標簽替換處理,以在標簽替換處理后,得到標簽替換文檔,其中,所述標簽替換文檔中各個標簽的名稱以及屬性,與所述目標word文檔中各個標簽的名稱以及屬性相同;
對所述標簽替換文檔中的各個第一指定標簽進行從屬歸類處理,以將所述標簽替換文檔中具有同一從屬關系的第一指定標簽構建為有序列表或無序列表,并在從屬歸類處理后,得到標簽從屬歸類文檔;
從所述標簽從屬歸類文檔中篩選出第二指定標簽,并將所述第二指定標簽對應的標簽內容上傳至云管理平臺,以得到所述第二指定標簽對應標簽內容的訪問地址,其中,所述第二指定標簽包括圖片標簽;
將所述第二指定標簽中的SRC內容替換為所述第二指定標簽對應標簽內容的訪問地址,以在SRC內容替換完畢后,得到所述樣式修正后的html文檔。
2.根據權利要求1所述的方法,其特征在于,對所述預處理后的html文檔中的各個標簽進行標簽替換處理,以在標簽替換處理后,得到標簽替換文檔,包括:
從所述預處理后的html文檔中篩選出第一目標標簽和第二目標標簽,其中,所述第一目標標簽包括p標簽,所述第二目標標簽包括font標簽、ins標簽、i標簽以及del標簽;
將所述第一目標標簽的name屬性內容更改為第一標簽名;以及
將所述第二目標標簽的name屬性內容更改為第二標簽名,并在所述第二目標標簽中添加標簽標識字符,以在標簽標識字符添加完畢后,得到所述標簽替換文檔。
3.根據權利要求1所述的方法,其特征在于,對所述標簽替換文檔中的各個第一指定標簽進行從屬歸類處理,以將所述標簽替換文檔中具有同一從屬關系的第一指定標簽構建為有序列表或無序列表,并在從屬歸類處理后,得到標簽從屬歸類文檔,包括:
對于所述標簽替換文檔中的各個第一指定標簽,獲取各個第一指定標簽的樣式屬性,其中,任一第一指定標簽的樣式屬性包括該任一第一指定標簽的所屬序列、所屬序列的層級以及所屬序列的層級的順序;
基于各個第一指定標簽的樣式屬性,對各個第一指定標簽進行從屬劃分處理,以將屬于同一序列以及同一層級的第一指定標簽劃分為一類,得到若干標簽類;
對于若干標簽類中的任一標簽類,按照所述任一標簽類中各個第一指定標簽對應所屬序列的層級的順序,對所述任一標簽類中的各個第一指定標簽進行排序,得到排序標簽類,并在將所有標簽類中的各個標簽均排序完畢后,得到若干排序標簽類;
對各個排序標簽類進行樣式識別,得到各個排序標簽類所屬的列表樣式,其中,所述列表樣式包括有序列表和無序列表;
基于各個排序標簽類所屬的列表樣式,為各個排序標簽類添加樣式標識標簽,以在樣式標識標簽添加完畢后,構建出若干有序列表和無序列表,并在有序列表和無序列表構建完成后,得到所述標簽從屬歸類文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京無憂創想信息技術有限公司,未經北京無憂創想信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310639865.1/1.html,轉載請聲明來源鉆瓜專利網。





