[發明專利]用于確定文字形近度的方法和設備有效
| 申請號: | 201710067064.7 | 申請日: | 2017-02-07 |
| 公開(公告)號: | CN106874947B | 公開(公告)日: | 2019-03-12 |
| 發明(設計)人: | 王珵 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06K9/62 |
| 代理公司: | 北京展翼知識產權代理事務所(特殊普通合伙) 11452 | 代理人: | 屠長存 |
| 地址: | 100085 北京市海淀區上*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 確定 文字 形近度 方法 設備 | ||
1.一種用于確定文字形近度的方法,包括:
(A)將待比較的第一文字和第二文字分別進行圖片格式轉換,以得到相應的第一圖片和第二圖片;
(B)確定第一圖片與第二圖片之間的像素匹配情況;以及
(C)基于確定的像素匹配情況來確定第一文字與第二文字之間的形近度;
其中,步驟(B)包括:
(b3)對第一圖片和第二圖片分別進行至少一種幾何變換,具體包括:對第一圖片進行m種幾何變換,得到m個變換后的第一圖片,對第二圖片進行n種幾何變換,得到n個變換后的第二圖片,這里,m和n均為正整數,且m種幾何變換與n種幾何變換在數量或種類上可以相同也可以不同;以及
(b4)確定幾何變換之前的第一圖片以及m個變換后的第一圖片之中的每一個分別與幾何變換之前的第二圖片以及n個變換后的第二圖片之中的每一個之間的像素匹配情況,一共獲取(m+1)×(n+1)個確定的像素匹配情況;
并且,步驟(C)包括:
(c1)分別基于每個確定的像素匹配情況來確定第一文字與第二文字之間的候選形近度;以及
(c2)將確定的候選形近度之中的最高候選形近度確定為第一圖片與第二圖片之間的形近度。
2.如權利要求1所述的方法,其中,在步驟(A)中,按照點陣字體將第一文字和第二文字分別進行圖片格式轉換。
3.如權利要求1所述的方法,其中,在步驟(B)中,以單個像素為單位來確定第一圖片與第二圖片之間的像素匹配情況。
4.如權利要求1所述的方法,其中,
步驟(B)還包括:(b1)對第一圖片和第二圖片的像素分別進行二值化處理;
所述步驟(b3)包括:對經過二值化處理的第一圖片和第二圖片分別進行至少一種幾何變換;
所述步驟(b4)包括:確定原始第一圖片、經過二值化處理的第一圖片以及經過每種幾何變換后的第一圖片分別與原始第二圖片、經過二值化處理的第二圖片以及經過每種幾何變換后的第二圖片之間的像素匹配情況。
5.如權利要求1所述的方法,其中,所述至少一種幾何變換包括平移變換、縮放變換、刪行變換和刪列變換之中的至少一種。
6.如權利要求1所述的方法,其中,在步驟(B)中,通過考慮非空白像素對之間的匹配情況來確定第一圖片與第二圖片之間的像素匹配情況;
其中,非空白像素對是第一圖片和第二圖片中的筆畫所在像素對。
7.如權利要求1所述的方法,還包括步驟(D)和步驟(E),其中,
所述方法在步驟(A)之前,執行步驟(D):確定待比較的第一文字和第二文字的筆畫數量,
其中,如果在步驟(D)中確定第一文字和第二文字之中的至少一個的筆畫數量小于預設閾值,則所述方法執行步驟(A)、步驟(B)和步驟(C);否則,所述方法執行步驟(E):基于第一文字與第二文字的編輯距離來確定第一文字與第二文字之間的形近度。
8.如權利要求1到7之中的任一權利要求所述的方法,其中,所述方法針對多個第一文字和多個第二文字分別確定每個第一文字與每個第二文字之間的形近度,并且,所述方法還包括:
(F)針對每個第一文字,選擇與所述每個第一文字形近度較高的至少一個第二文字作為所述每個第一文字的形近字,并建立由所述多個第一文字及其形近字組成的形近字庫。
9.一種執行文字校對的方法,包括:
確定待校對文字;
從基于權利要求8建立的形近字庫中搜索所述待校對文字的形近字;以及
輸出搜索到的所述待校對文字的形近字。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710067064.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于子空間分析的分類識別方法
- 下一篇:一種黑臭水自動識別與評估方法





