[發明專利]用于表意字符分析的方法和介質有效
| 申請號: | 201580084629.1 | 申請日: | 2015-09-30 |
| 公開(公告)號: | CN109074355B | 公開(公告)日: | 2023-03-07 |
| 發明(設計)人: | 陳超;黃坤悟;戴宏濤;劉靜靜 | 申請(專利權)人: | 開文公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/22;G06F16/242;G06F16/2457 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 曾琳 |
| 地址: | 加拿大*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 表意 字符 分析 方法 介質 | ||
1.一種用于表意字符分析的方法,所述方法包括:
將用于執行文檔搜索的原始搜索短語中包括的原始表意字符劃分為多個筆畫;
將所述多個筆畫中的每個筆畫映射到對應的筆畫標識符id,以創建包括多個筆畫標識符的原始筆畫id序列;
選擇具有距所述原始筆畫id序列處于閾值距離內的候選筆畫id序列的候選表意字符;
通過在所述原始搜索短語中用所述候選表意字符取代所述原始表意字符來創建新短語;
用所述原始搜索短語和所述新短語來查詢存儲有經字符辨認的文檔的數據儲存庫,以獲得所存儲的經字符辨認的文檔中與所述原始搜索短語匹配的文檔和與所述新短語匹配的文檔,其中,所存儲的經字符辨認的文檔中的至少一些具有錯誤識別的原始表意字符;
識別與所述原始搜索短語匹配的文檔和與所述新短語匹配的文檔的多個文檔標識符;以及
呈現與所述多個文檔標識符匹配的文檔圖像。
2.根據權利要求1所述的方法,其中,所述多個筆畫標識符是多個數字。
3.根據權利要求1所述的方法,其中,選擇候選表意字符包括:
將筆畫id插入到所述原始筆畫id序列中以創建所述候選筆畫id序列;
根據所述候選筆畫id序列識別所述候選表意字符。
4.根據權利要求3所述的方法,其中,所述筆畫id被插入到多個位置中以創建包括所述候選筆畫id序列的多個筆畫id序列,并且其中,所述搜索是使用對應于所述多個筆畫id序列的多個表意字符執行的。
5.根據權利要求1所述的方法,其中,選擇候選表意字符包括:
從所述原始筆畫id序列中刪除筆畫id以創建所述候選筆畫id序列;
根據所述候選筆畫id序列識別所述候選表意字符。
6.根據權利要求1所述的方法,其中,選擇候選表意字符包括:
用候選筆畫id取代所述原始筆畫id序列中的原始筆畫id以創建所述候選筆畫id序列;
根據所述候選筆畫id序列識別所述候選表意字符。
7.根據權利要求6所述的方法,其中,所述原始筆畫id序列中的所述多個筆畫標識符被取代以創建包括所述候選筆畫id序列的多個筆畫id序列,并且其中,所述搜索是使用對應于所述多個筆畫id序列的多個表意字符執行的。
8.一種用于表意字符分析的方法,所述方法包括:
將原始表意字符劃分為多個筆畫;
將所述多個筆畫中的每個筆畫映射到筆畫標識符id,以創建包括多個筆畫標識符的原始筆畫id序列;
選擇具有距所述原始筆畫id序列處于閾值距離內的候選筆畫id序列的候選表意字符;
從由原始表意字符集合和候選表意字符集合組合成的短語集合中移除語法上錯誤的候選短語或原始短語;
選擇相對于原始短語具有最小候選短語編輯距離的候選短語來在經字符辨認的文檔中取代該原始短語,其中,候選短語的候選短語編輯距離指從原始短語到候選短語的表意字符上的筆畫id序列的編輯距離的求和;以及
將所述經字符辨認的文檔存儲在數據儲存庫中以通過根據權利要求1所述的方法進行搜索。
9.根據權利要求8所述的方法,其中,所述多個筆畫標識符是多個數字。
10.根據權利要求8所述的方法,其中,選擇候選表意字符包括:
將筆畫id插入到所述原始筆畫id序列中以創建所述候選筆畫id序列;
根據所述候選筆畫id序列識別所述候選表意字符。
11.根據權利要求8所述的方法,其中,選擇候選表意字符包括:
從所述原始筆畫id序列中刪除筆畫id以創建所述候選筆畫id序列;
根據所述候選筆畫id序列識別所述候選表意字符。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于開文公司,未經開文公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201580084629.1/1.html,轉載請聲明來源鉆瓜專利網。





