[發明專利]文本處理方法、裝置、非易失性存儲介質及處理器在審
| 申請號: | 202110456229.6 | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN112949283A | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 吳信東;盛紹靜;周鵬;卜晨陽 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/151;G06F40/109 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 曾紅芳 |
| 地址: | 230009 *** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 非易失性 存儲 介質 處理器 | ||
1.一種文本處理方法,其特征在于,包括:
獲取待處理的目標文本,其中,所述目標文本為第一字體的文本;
根據預設的轉換對照庫對所述目標文本進行拆分,得到多個第一字體的文本片段;
分別對所述多個第一字體的文本片段進行轉換,得到多個第二字體的轉換后文本片段;
將所述多個第二字體的轉換后文本片段進行拼接,得到所述目標文本對應的所述第二字體的轉換后文本。
2.根據權利要求1所述的方法,其特征在于,在所述轉換對照庫包括轉換語句庫的情況下,根據預設的轉換對照庫對所述目標文本進行拆分,得到多個第一字體的文本片段,包括:
將所述目標文本中的語句與所述轉換語句庫中包括的語句進行匹配;
將與所述轉換語句庫中的語句匹配的所述目標文本中的語句拆分出來,得到語句片段,其中,所述多個第一字體的文本片段包括所述語句片段。
3.根據權利要求1所述的方法,其特征在于,在所述轉換對照庫包括第一詞庫的情況下,根據預設的轉換對照庫對所述目標文本進行拆分,得到多個第一字體的文本片段,包括:
根據所述第一詞庫,對所述目標文本進行分詞,得到第一詞片段,其中,所述多個第一字體的文本片段包括所述第一詞片段。
4.根據權利要求3所述的方法,其特征在于,在所述轉換對照庫包括第二詞庫的情況下,根據預設的轉換對照庫對所述目標文本進行拆分,得到多個第一字體的文本片段,包括:
根據所述第二詞庫,對所述目標文本進行分詞,得到第二詞片段,其中,所述多個第一字體的文本片段包括所述第二詞片段,所述第二詞庫與所述第一詞庫不同。
5.根據權利要求1所述的方法,其特征在于,在所述轉換對照庫包括第一詞庫和第二詞庫的情況下,根據預設的轉換對照庫對所述目標文本進行拆分,得到多個第一字體的文本片段,包括:
根據所述第一詞庫和所述第二詞庫,對所述目標文本進行分詞,得到第三詞片段,其中,所述第一字體的文本片段包括所述第三詞片段。
6.根據權利要求5所述的方法,其特征在于,在所述轉換對照庫還包括轉換字庫的情況下,分別對所述多個第一字體的文本片段進行轉換,得到多個第二字體的轉換后文本片段,包括:
使用所述第一詞庫,將第一字體的第四詞片段轉換為第二字體的第五詞片段,其中,所述第三詞片段包括所述第四詞片段,所述轉換后文本片段包括所述第五詞片段,所述第一詞庫中包括所述第四詞片段、所述第五詞片段,以及所述第四詞片段與所述第五詞片段的對應關系;
使用所述第二詞庫,將第一字體的第六詞片段轉換為第二字體的第七詞片段,其中,所述第三詞片段包括所述第六詞片段,所述轉換后文本片段包括所述第七詞片段,所述第二詞庫包括所述第六詞片段、所述第七詞片段,以及所述第六詞片段與所述第七詞片段的對應關系;
使用所述轉換字庫,將第一字體的第八詞片段逐字轉換為第二字體的第九詞片段,其中,所述第三詞片段包括所述第八詞片段,所述轉換后文本片段包括所述第九詞片段。
7.根據權利要求1至6任意一項所述的方法,其特征在于,
所述第一字體包括漢字繁體,所述第二字體包括漢字簡體;
或,所述第一字體包括漢字簡體,所述第二字體包括漢字繁體。
8.一種文本處理裝置,其特征在于,包括:
獲取模塊,用于獲取待處理的目標文本,其中,所述目標文本為第一字體的文本;
拆分模塊,用于根據預設的轉換對照庫對所述目標文本進行拆分,得到多個第一字體的文本片段;
轉換模塊,用于分別對所述多個第一字體的文本片段進行轉換,得到多個第二字體的轉換后文本片段;
拼接模塊,用于將所述多個第二字體的轉換后文本片段進行拼接,得到所述目標文本對應的所述第二字體的轉換后文本。
9.一種非易失性存儲介質,其特征在于,所述非易失性存儲介質包括存儲的程序,其中,在所述程序運行時控制所述非易失性存儲介質所在設備執行權利要求1至7中任意一項所述文本處理方法。
10.一種處理器,其特征在于,所述處理器用于運行程序,其中,所述程序運行時執行權利要求1至7中任意一項所述文本處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110456229.6/1.html,轉載請聲明來源鉆瓜專利網。





