[發明專利]電子書的排版處理方法、電子設備及存儲介質在審
| 申請號: | 202210102461.4 | 申請日: | 2022-01-27 |
| 公開(公告)號: | CN114492303A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 李銘瀚;張恒 | 申請(專利權)人: | 掌閱科技股份有限公司 |
| 主分類號: | G06F40/109 | 分類號: | G06F40/109;G06F16/903 |
| 代理公司: | 北京開陽星知識產權代理有限公司 11710 | 代理人: | 吳崇 |
| 地址: | 100022 北京市朝陽區東三環中路3*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電子書 排版 處理 方法 電子設備 存儲 介質 | ||
1.一種電子書的排版處理方法,其特征在于,所述方法包括:
對電子書的版式文檔中包含的原始文本進行解析,得到所述原始文本包含的至少一個字符串;
針對所述至少一個字符串中的目標字符串,將所述目標字符串與預設詞匯表進行匹配;
在確定所述目標字符串存在與所述預設詞匯表中的單詞匹配成功的第一字符組合時,根據所述第一字符組合,將所述目標字符串拆分為多個子字符串;
在每兩個相鄰的字符串以及每兩個相鄰的子字符串之間分別添加空格,得到所述電子書的流式文檔。
2.根據權利要求1所述的方法,其特征在于,在所述針對所述至少一個字符串中的目標字符串,將所述目標字符串與預設詞匯表進行匹配之前,所述方法還包括:
確定每個所述字符串的字符總數;
將字符總數大于預設數量閾值的字符串作為所述目標字符串。
3.根據權利要求1或2所述的方法,其特征在于,所述將所述目標字符串與預設詞匯表進行匹配,包括:
按照預設的拆分方式,將所述目標字符串拆分為多組字符組合;
針對每組所述字符組合,將所述字符組合與所述預設詞匯表進行匹配。
4.根據權利要求3所述的方法,其特征在于,所述將所述字符組合與所述預設詞匯表進行匹配,包括:
按照所述預設詞匯表的單詞排列順序,將所述預設詞匯表中的單詞逐個與所述字符組合進行比對,直至匹配到與所述字符組合完全相同的單詞或者遍歷完所述預設詞匯表。
5.根據權利要求3所述的方法,其特征在于,所述將所述字符組合分別與所述預設詞匯表進行匹配,包括:
在所述預設詞匯表中,按照所述字符組合的字符排列順序,依次對與每個字符匹配的單詞進行篩選,直至匹配到與所述字符組合完全相同的單詞或者不存在可供篩選的單詞。
6.根據權利要求3所述的方法,其特征在于,所述將所述目標字符串與預設詞匯表進行匹配,包括:
按照最大匹配法或者最小匹配法,將所述目標字符串與所述預設詞匯表進行匹配。
7.根據權利要求1所述的方法,其特征在于,所述方法還包括:
若所述目標字符串中存在與所述預設詞匯表中的單詞匹配失敗的第二字符組合,將所述第二字符組合與相鄰的字符串拼接,得到拼接字符串;
將所述拼接字符串作為新的目標字符串,并返回執行所述將所述目標字符串與預設詞匯表進行匹配的步驟。
8.根據權利要求7所述的方法,其特征在于,所述方法還包括:
在所述至少一個字符串均與所述預設詞匯表進行匹配之后,檢測拆分得到的子字符串中是否存在與所述預設詞匯表的單詞匹配失敗的目標子字符串;
若存在所述目標子字符串,將所述目標子字符串保存至未匹配成功列表中。
9.一種電子設備,其特征在于,包括處理器和存儲器,所述存儲器用于存儲可執行指令,所述可執行指令使所述處理器執行以下操作:
對電子書的版式文檔中包含的原始文本進行解析,得到所述原始文本包含的至少一個字符串;
針對所述至少一個字符串中的目標字符串,將所述目標字符串與預設詞匯表進行匹配;
在確定所述目標字符串存在與所述預設詞匯表中的單詞匹配成功的第一字符組合時,根據所述第一字符組合,將所述目標字符串拆分為多個子字符串;
在每兩個相鄰的字符串以及每兩個相鄰的子字符串之間分別添加空格,得到所述電子書的流式文檔。
10.一種計算機可讀存儲介質,其特征在于,所述存儲介質存儲有計算機程序,當所述計算機程序被處理器執行時,使得處理器實現用上述權利要求1-8中任一項所述的電子書的排版處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于掌閱科技股份有限公司,未經掌閱科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210102461.4/1.html,轉載請聲明來源鉆瓜專利網。





