[發明專利]文字排版方法、電子設備及存儲介質有效
| 申請號: | 202110316678.0 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN112906347B | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 張恒 | 申請(專利權)人: | 掌閱科技股份有限公司 |
| 主分類號: | G06F40/109 | 分類號: | G06F40/109 |
| 代理公司: | 北京市浩天知識產權代理事務所(普通合伙) 11276 | 代理人: | 劉蘭蘭 |
| 地址: | 100124 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文字 排版 方法 電子設備 存儲 介質 | ||
本發明公開了一種文字排版方法、電子設備及存儲介質,該方法包括:獲取原始頁面中包含的文字集合,解析得到文字集合中包含的各個字符;針對各個字符,按照預設投影方向進行投影,得到與各個字符相對應的投影位置,將投影位置存在重疊區域的至少兩個字符確定為一個關聯字符組;根據關聯字符組中的各個字符對應于原始頁面的位置信息,確定關聯字符組中的各個字符的關聯排版次序;根據關聯字符組中的各個字符的關聯排版次序,設置文字集合中包含的各個字符的排列次序,按照排列次序對文字集合中包含的各個字符進行排版處理。該方式能夠根據投影結果確定由多個上下交錯的字符構成的關聯字符組,進而針對關聯字符組中的各個字符進行準確排序。
技術領域
本發明涉及計算機領域,具體涉及一種文字排版方法、電子設備及存儲介質。
背景技術
在電子書排版過程中,需要針對版式排版的電子書原稿進行識別,并根據識別結果通過流式排版方式實現自定義效果的排版。其中,電子書原稿通常為PDF等不可編輯的格式。在針對電子書原稿進行識別的過程中,能夠自動識別出原稿中的各種頁面元素,具體包括文字類元素、圖片類元素等多種類型。然后,根據識別結果自動轉換至流式文檔中實現自定義排版。
但是,在實現本發明的過程中,發明人發現現有技術中的上述方案至少存在下述缺陷:在針對電子書原稿進行識別時,對于常規文字的識別結果準確度較高。但是,對于結構復雜的文字而言,由于復雜文字內部包含多個構成要素,識別過程中可能會將各個構成要素割裂開單獨進行識別,且割裂后的各個構成要素之間的排列次序往往是隨機的,進而導致在后續過程中無法根據隨機排序的多個構成要素準確還原原始文字,從而導致識別錯誤。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的文字排版方法、電子設備及存儲介質。
根據本發明的一個方面,提供了一種文字排版方法,該方法包括:
根據文字排布方向,獲取原始頁面中包含的文字集合,解析得到所述文字集合中包含的各個字符;
針對所述文字集合中包含的各個字符,按照預設投影方向進行投影,得到與各個字符相對應的投影位置,將投影位置存在重疊區域的至少兩個字符確定為一個關聯字符組;
根據所述關聯字符組中的各個字符對應于所述原始頁面的位置信息,確定所述關聯字符組中的各個字符的關聯排版次序;
根據所述關聯字符組中的各個字符的關聯排版次序,設置所述文字集合中包含的各個字符的排列次序,按照所述排列次序對所述文字集合中包含的各個字符進行排版處理。
根據本發明的另一方面,提供了一種電子設備,該電子設備包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;
所述存儲器用于存放至少一可執行指令,所述可執行指令使所述處理器執行以下操作:
根據文字排布方向,獲取原始頁面中包含的文字集合,解析得到所述文字集合中包含的各個字符;
針對所述文字集合中包含的各個字符,按照預設投影方向進行投影,得到與各個字符相對應的投影位置,將投影位置存在重疊區域的至少兩個字符確定為一個關聯字符組;
根據所述關聯字符組中的各個字符對應于所述原始頁面的位置信息,確定所述關聯字符組中的各個字符的關聯排版次序;
根據所述關聯字符組中的各個字符的關聯排版次序,設置所述文字集合中包含的各個字符的排列次序,按照所述排列次序對所述文字集合中包含的各個字符進行排版處理。
根據本發明的又一方面,提供了一種計算機存儲介質,所述存儲介質中存儲有至少一可執行指令,所述可執行指令使所述處理器執行以下操作:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于掌閱科技股份有限公司,未經掌閱科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110316678.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于圖注意力網絡的多標簽圖像識別方法
- 下一篇:熔斷器和電路系統





