[發明專利]一種基于機器識別的word文檔轉換方法、裝置及存儲介質有效
| 申請號: | 202310639865.1 | 申請日: | 2023-06-01 |
| 公開(公告)號: | CN116340263B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 陳德勇;李元海 | 申請(專利權)人: | 北京無憂創想信息技術有限公司 |
| 主分類號: | G06F16/11 | 分類號: | G06F16/11;G06F16/16;G06F8/73 |
| 代理公司: | 成都頂峰專利事務所(普通合伙) 51224 | 代理人: | 王袁輝 |
| 地址: | 100000 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 識別 word 文檔 轉換 方法 裝置 存儲 介質 | ||
本發明公開了一種基于機器識別的word文檔轉換方法、裝置及存儲介質,本發明在進行文檔轉換時,對格式轉換后的文檔進行了樣式修正處理,如此,可保留原word文檔中的文本樣式;同時,利用機器識別技術,來對樣式修正后的各個文本段落進行代碼種類識別,以基于各個文本段落的代碼種類,來進行編程語言標識;由此,本發明在文檔轉換時,可保留原文本中的文本樣式,且能夠準確識別出文檔中的代碼塊文本,以及所屬的編程語言,由此,使得用戶不用重復的復制粘貼、重新編寫代碼以及重新設置文本樣式,可實現各類技術文章的快速發布,適用于在文檔轉換領域的廣泛應用與推廣。
技術領域
本發明屬于數據處理技術領域,具體涉及一種基于機器識別的word文檔轉換方法、裝置及存儲介質。
背景技術
二十一世紀以來,隨著互聯網的快速發展,技術論壇、博客、社區等應用也逐漸流行起來,前述應用為人們提供了溝通交流的平臺,促進了不同人群之間的相互學習;同時,為保證人們在前述應用上的快速發文,各類特色編輯器也隨之出現;但是,現有的編輯器卻不能很好的支持或者是不支持本地word文檔的快速導入發文,其存在以下不足:
目前市面上的編輯器僅僅能夠轉換基本的段落、表格、圖片等格式,而且轉換出來時,文本樣式會大幅度丟失,只能保證內容完整,而不能保證文本樣式完整;同時,Word文檔中存在代碼塊時,導入時無法識別,會變為普通文本;基于此,如何提供一種能夠將已有的word文檔,快速、高還原度地轉換成發布文檔的轉換方法,已成為一個亟待解決的問題。
發明內容
本發明的目的是提供一種基于機器識別的word文檔轉換方法、裝置及存儲介質,用以解決現有技術在進行word文檔轉換時無法保證文本樣式完整,以及無法識別代碼塊的問題。
為了實現上述目的,本發明采用以下技術方案:
第一方面,提供了一種基于機器識別的word文檔轉換方法,包括:
獲取目標word文檔,并將所述目標word文檔轉換為html文檔;
對所述html文檔進行樣式修正處理,得到樣式修正后的html文檔;
對所述樣式修正后的html文檔內的字符串進行段落劃分處理,得到預轉換文檔;
從所述預轉換文檔中的各個文本段落中,篩選出代碼文本段落,并將所述代碼文本段落輸入至代碼識別模型中進行代碼種類識別處理,得到所述代碼文本段落對應的代碼種類;
基于所述代碼文本段落對應的代碼種類,對所述預轉換文檔中的代碼文本段落進行編程語言標識處理,以在編程語言標識處理完成后,得到所述目標word文檔對應的html轉換文檔。
基于上述公開的內容,本發明在進行文檔轉換時,先進行格式轉換,也就是將目標word文檔轉換為html文檔,前述操作能夠使轉換后的文檔被現有的編輯器所識別,從而減少用戶發布時重新編輯的時間成本;接著,本發明對html文檔進行樣式修正處理,以保證轉換后的文檔中的樣式與原文檔中的文本樣式相同;在完成樣式修正后,則可進行代碼塊的識別,以便使轉換后的文檔能夠得到原文檔中的代碼塊;其中,在具體實施時,本發明先對樣式修正后的html文檔內的字符串進行段落劃分處理,得到若干文本段落,而后,再識別出屬于代碼塊的文本段落,以便將屬于代碼塊的文本段落輸入至代碼識別模型中進行代碼種類識別處理,得到各個代碼文本段落所屬的代碼種類;最后,利用識別出的代碼種類,對各個代碼文本段落進行編程語言標識處理,即可完成對目標word文檔的轉換,得到發布文檔(即html轉換文檔)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京無憂創想信息技術有限公司,未經北京無憂創想信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310639865.1/2.html,轉載請聲明來源鉆瓜專利網。





