[發明專利]文本處理方法、裝置、非易失性存儲介質及處理器在審
| 申請號: | 202110456229.6 | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN112949283A | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 吳信東;盛紹靜;周鵬;卜晨陽 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/151;G06F40/109 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 曾紅芳 |
| 地址: | 230009 *** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 非易失性 存儲 介質 處理器 | ||
本發明公開了一種文本處理方法、裝置、非易失性存儲介質及處理器。其中,該方法包括:獲取待處理的目標文本,其中,目標文本為第一字體的文本;根據預設的轉換對照庫對目標文本進行拆分,得到多個第一字體的文本片段;分別對多個第一字體的文本片段進行轉換,得到多個第二字體的轉換后文本片段;將多個第二字體的轉換后文本片段進行拼接,得到目標文本對應的第二字體的轉換后文本。本發明解決了將文本進行字體轉換時轉換結果不正確的技術問題。
技術領域
本發明涉及文字處理領域,具體而言,涉及一種文本處理方法、裝置、非易失性存儲介質及處理器。
背景技術
字體轉換具有重大意義,通過字體轉換可以便于文化交流,保存文化典籍。字體轉換本質上是語言學問題,相關技術在這個過程中存在如下問題:(1)人工轉換的話,工作量大且轉換效率低:幾十萬乃至上百萬字數的文本,完全由人工轉換耗時耗力;(2)轉換過程中容易產生字符集不兼容問題:當逐字轉換的字符集互不兼容時,可能產生無數漏字;(3)轉換過程中存在歧義性:一個第一字體的字在很多情況下可以和多個第二字體的字對應,直接轉換容易出現錯誤,導致轉換精度較低。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種文本處理方法、裝置、非易失性存儲介質及處理器,以至少解決將文本進行字體轉換時轉換結果不正確的技術問題。
根據本發明實施例的一個方面,提供了一種文本處理方法,包括:獲取待處理的目標文本,其中,所述目標文本為第一字體的文本;根據預設的轉換對照庫對所述目標文本進行拆分,得到多個第一字體的文本片段;分別對所述多個第一字體的文本片段進行轉換,得到多個第二字體的轉換后文本片段;將所述多個第二字體的轉換后文本片段進行拼接,得到所述目標文本對應的所述第二字體的轉換后文本。
可選地,在所述轉換對照庫包括轉換語句庫的情況下,根據預設的轉換對照庫對所述目標文本進行拆分,得到多個第一字體的文本片段,包括:將所述目標文本中的語句與所述轉換語句庫中包括的語句進行匹配;將與所述轉換語句庫中的語句匹配的所述目標文本中的語句拆分出來,得到語句片段,其中,所述多個第一字體的文本片段包括所述語句片段。
可選地,在所述轉換對照庫包括第一詞庫的情況下,根據預設的轉換對照庫對所述目標文本進行拆分,得到多個第一字體的文本片段,包括:根據所述第一詞庫,對所述目標文本進行分詞,得到第一詞片段,其中,所述多個第一字體的文本片段包括所述第一詞片段。
可選地,在所述轉換對照庫包括第二詞庫的情況下,根據預設的轉換對照庫對所述目標文本進行拆分,得到多個第一字體的文本片段,包括:根據所述第二詞庫,對所述目標文本進行分詞,得到第二詞片段,其中,所述多個第一字體的文本片段包括所述第二詞片段,所述第二詞庫與所述第一詞庫不同。
可選地,在所述轉換對照庫包括第一詞庫和第二詞庫的情況下,根據預設的轉換對照庫對所述目標文本進行拆分,得到多個第一字體的文本片段,包括:根據所述第一詞庫和所述第二詞庫,對所述目標文本進行分詞,得到第三詞片段,其中,所述第一字體的文本片段包括所述第三詞片段。
可選地,在所述轉換對照庫還包括轉換字庫的情況下,分別對所述多個第一字體的文本片段進行轉換,得到多個第二字體的轉換后文本片段,包括:使用所述第一詞庫,將第一字體的第四詞片段轉換為第二字體的第五詞片段,其中,所述第三詞片段包括所述第四詞片段,所述轉換后文本片段包括所述第五詞片段,所述第一詞庫中包括所述第四詞片段、所述第五詞片段,以及所述第四詞片段與所述第五詞片段的對應關系;使用所述第二詞庫,將第一字體的第六詞片段轉換為第二字體的第七詞片段,其中,所述第三詞片段包括所述第六詞片段,所述轉換后文本片段包括所述第七詞片段,所述第二詞庫包括所述第六詞片段、所述第七詞片段,以及所述第六詞片段與所述第七詞片段的對應關系;使用所述轉換字庫,將第一字體的第八詞片段逐字轉換為第二字體的第九詞片段,其中,所述第三詞片段包括所述第八詞片段,所述轉換后文本片段包括所述第九詞片段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110456229.6/2.html,轉載請聲明來源鉆瓜專利網。





