[發明專利]生僻字處理方法、計算設備及計算機存儲介質有效
| 申請號: | 201711423094.3 | 申請日: | 2017-12-25 |
| 公開(公告)號: | CN108153731B | 公開(公告)日: | 2019-02-12 |
| 發明(設計)人: | 張恒 | 申請(專利權)人: | 掌閱科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京市浩天知識產權代理事務所(普通合伙) 11276 | 代理人: | 宋菲;劉云貴 |
| 地址: | 100124 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 生僻字 生僻字圖片 填充 計算機存儲介質 計算設備 文本對象 文檔 對象填充 用戶閱讀 預設規則 排版 混亂 | ||
本發明公開了一種生僻字處理方法、計算設備及計算機存儲介質,其中,方法包括:對待識別文檔的每行文本對象進行識別;根據每行文本對象的識別結果,利用預設規則確定生僻字區域;對所述生僻字區域進行截圖處理,得到生僻字圖片;根據生僻字圖片得到生僻字填充對象,將所述生僻字填充對象填充到所述生僻字區域中。由此可見,利用本發明方案,可以根據生僻字圖片得到生僻字填充對象,避免了呈現給用戶的文檔中對應生僻字區域的文本對象的缺失,進而可以使用戶閱讀更順暢;同時,避免了由于生僻字區域的文本對象的缺失而導致出現的排版混亂問題。
技術領域
本發明涉及文本識別技術領域,具體涉及一種生僻字處理方法、計算設備及計算機存儲介質。
背景技術
目前,隨著手機等移動終端的普及以及電子書閱讀器的發展,電子書越來越受閱讀用戶的青睞。與此同時,在電子閱讀器中,為使文檔內容能夠根據閱讀設備的特性,以最適于閱讀的方式顯示,需將版式文檔轉成流式文檔,例如,將PDF文檔轉成電子出版文檔(Electronic Publication,簡稱ePUB)。
然而,由于PDF等版式文檔的字符編碼方式有限,導致大量生僻字只能以路徑線的形式表示出來,針對這些生僻字,在轉成ePUB的過程中,則會出現對應位置的字符無法抽取出來,進而使得呈現給用戶的文檔內容存在缺失;以及,由于對應生僻字的位置的字符的缺失,使得在對流式文檔進行排版時,會將生僻字前后的文本識別成兩行,造成排版混亂。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的生僻字處理方法、計算設備及計算機存儲介質。
根據本發明的一個方面,提供了一種生僻字處理方法,包括:
對待識別文檔的每行文本對象進行識別;
根據每行文本對象的識別結果,利用預設規則確定生僻字區域;
對所述生僻字區域進行截圖處理,得到生僻字圖片;
根據生僻字圖片得到生僻字填充對象,將所述生僻字填充對象填充到所述生僻字區域中。
根據本發明的另一方面,提供了一種計算設備,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;
所述存儲器用于存放至少一可執行指令,所述可執行指令使所述處理器執行以下操作:
對待識別文檔的每行文本對象進行識別;
根據每行文本對象的識別結果,利用預設規則確定生僻字區域;
對所述生僻字區域進行截圖處理,得到生僻字圖片;
根據生僻字圖片得到生僻字填充對象,將所述生僻字填充對象填充到所述生僻字區域中。
根據本發明的又一方面,提供了一種計算機存儲介質,所述存儲介質中存儲有至少一可執行指令,所述可執行指令使處理器執行以下操作:
對待識別文檔的每行文本對象進行識別;
根據每行文本對象的識別結果,利用預設規則確定生僻字區域;
對所述生僻字區域進行截圖處理,得到生僻字圖片;
根據生僻字圖片得到生僻字填充對象,將所述生僻字填充對象填充到所述生僻字區域中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于掌閱科技股份有限公司,未經掌閱科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711423094.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種面向金融領域的知識抽取方法
- 下一篇:一種審訊筆錄的審查方法及裝置





