[發明專利]生僻字處理方法、計算設備及計算機存儲介質有效
| 申請號: | 201810659246.8 | 申請日: | 2018-06-25 |
| 公開(公告)號: | CN108846367B | 公開(公告)日: | 2019-08-30 |
| 發明(設計)人: | 張恒;李銘瀚;于剛 | 申請(專利權)人: | 掌閱科技股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 北京市浩天知識產權代理事務所(普通合伙) 11276 | 代理人: | 宋菲;劉云貴 |
| 地址: | 100124 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 生僻字 計算機存儲介質 計算設備 文檔 相似度匹配 書籍文件 文本對象 信息對應 信息匹配 減小 存儲 保存 場景 重復 | ||
1.一種生僻字處理方法,包括:
對文檔的文本對象進行識別,確定待識別生僻字區域,獲取待識別生僻字區域內的待識別生僻字信息;
根據相似度匹配規則,判斷所述文檔的已識別結果中是否存在與所述待識別生僻字信息匹配的已識別生僻字信息;
若是,則將所述已識別生僻字信息對應的識別結果作為所述待識別生僻字區域的識別結果。
2.根據權利要求1所述的方法,其中,生僻字信息具體為:生僻字路徑線信息;
所述根據相似度匹配規則,判斷所述文檔的已識別結果中是否存在與所述待識別生僻字信息匹配的已識別生僻字信息具體為:
根據路徑線比較規則,判斷所述文檔的已識別結果中是否存在與所述待識別生僻字路徑線信息匹配的已識別生僻字路徑線信息。
3.根據權利要求2所述的方法,其中,所述根據路徑線比較規則,判斷所述文檔的已識別結果中是否存在與所述待識別生僻字路徑線信息匹配的已識別生僻字路徑線信息進一步包括:
比較待識別生僻字路徑線的數量與已識別生僻字路徑線的數量是否相等;
若是,則判斷所述待識別生僻字路徑線中各條路徑線位置信息與所述已識別生僻字路徑線的各條路徑線位置信息是否相匹配。
4.根據權利要求3所述的方法,其中,所述判斷所述待識別生僻字路徑線中各條路徑線位置信息與所述已識別生僻字路徑線的各條路徑線位置信息是否相匹配進一步包括:
計算具有相同路徑線編號的所述待識別生僻字路徑線的端點坐標和所述已識別生僻字路徑線的端點坐標的坐標差;
計算待識別生僻字和已識別生僻字所有路徑線的坐標差的方差;
判斷所述方差是否小于預設期望值;若是,則判定所述待識別生僻字路徑線中各條路徑線位置信息與所述已識別生僻字路徑線的各條路徑線位置信息相匹配。
5.根據權利要求1所述的方法,其中,生僻字信息具體為:對生僻字區域進行截圖得到的生僻字圖片;
所述根據相似度匹配規則,判斷所述文檔的已識別結果中是否存在與所述待識別生僻字信息匹配的已識別生僻字信息具體為:
根據圖片相似度計算規則,判斷待識別生僻字圖片與任一已識別生僻字圖片的相似度是否大于或等于預設相似度閾值,若是,則判定所述文檔的已識別結果中存在與所述待識別生僻字信息匹配的已識別生僻字信息。
6.一種計算設備,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;
所述存儲器用于存放至少一可執行指令,所述可執行指令使所述處理器執行以下操作:
對文檔的文本對象進行識別,確定待識別生僻字區域,獲取待識別生僻字區域內的待識別生僻字信息;
根據相似度匹配規則,判斷所述文檔的已識別結果中是否存在與所述待識別生僻字信息匹配的已識別生僻字信息;
若是,則將所述已識別生僻字信息對應的識別結果作為所述待識別生僻字區域的識別結果。
7.根據權利要求6所述的計算設備,其中,生僻字信息具體為:生僻字路徑線信息;所述可執行指令進一步使所述處理器執行以下操作:
根據路徑線比較規則,判斷所述文檔的已識別結果中是否存在與所述待識別生僻字路徑線信息匹配的已識別生僻字路徑線信息。
8.根據權利要求7所述的計算設備,其中,所述可執行指令進一步使所述處理器執行以下操作:
比較待識別生僻字路徑線的數量與已識別生僻字路徑線的數量是否相等;
若是,則判斷所述待識別生僻字路徑線中各條路徑線位置信息與所述已識別生僻字路徑線的各條路徑線位置信息是否相匹配。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于掌閱科技股份有限公司,未經掌閱科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810659246.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:計算內燃機缸內濃度場的方法及裝置
- 下一篇:一種手指靜脈識別系統





