[發(fā)明專利]用于確定文字形近度的方法和設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 201710067064.7 | 申請(qǐng)日: | 2017-02-07 |
| 公開(公告)號(hào): | CN106874947B | 公開(公告)日: | 2019-03-12 |
| 發(fā)明(設(shè)計(jì))人: | 王珵 | 申請(qǐng)(專利權(quán))人: | 第四范式(北京)技術(shù)有限公司 |
| 主分類號(hào): | G06F17/22 | 分類號(hào): | G06F17/22;G06K9/62 |
| 代理公司: | 北京展翼知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11452 | 代理人: | 屠長存 |
| 地址: | 100085 北京市海淀區(qū)上*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 確定 文字 形近度 方法 設(shè)備 | ||
提供了一種用于確定文字形近度的方法和設(shè)備,所述方法包括(A)將待比較的第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換,以得到相應(yīng)的第一圖片和第二圖片;(B)確定第一圖片與第二圖片之間的像素匹配情況;以及(C)基于確定的像素匹配情況來確定第一文字與第二文字之間的形近度。在根據(jù)本發(fā)明示例性實(shí)施例的用于確定文字形近度的方法和設(shè)備中,可基于文字轉(zhuǎn)換為圖片格式之后的像素匹配程度來判斷文字的形近程度,從而不再受限于任何編碼規(guī)則而成為一種通用的形近字確定方式。
技術(shù)領(lǐng)域
本發(fā)明總體說來涉及計(jì)算機(jī)信息處理,更具體地說,涉及一種基于計(jì)算機(jī)信息處理來確定文字形近度的方法和設(shè)備。
背景技術(shù)
在諸如中文、日文、韓文等語言中,存在大量字形上近似的文字,這些形近字的存在很容易導(dǎo)致文字使用上的錯(cuò)誤。
過去較多地依靠人力來查找錯(cuò)誤使用的形近字,但由于形近字本身容易混淆,導(dǎo)致不僅需要耗費(fèi)大量的人力,而且難免錯(cuò)漏的情況。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,越來越多地采用自動(dòng)識(shí)別的方式來查找形近字。通常,在文字基于字形被編碼(例如,按照編碼規(guī)則被轉(zhuǎn)換為由1-5位字符(例如,字母或數(shù)字等)組成的碼字)的情況下,可基于碼字之間的編輯距離來確定文字之間的形近程度,這里,作為示例,編輯距離可基于碼字之間字符的增加、刪減或改換來計(jì)算。例如,公開號(hào)為CN103399907A的中國專利申請(qǐng)《一種基于編輯距離計(jì)算中文字符串相似度的方法及裝置》公開了一種基于編輯距離計(jì)算中文字符串相似度的方法,其采用四角號(hào)碼編碼將字符串中的漢字轉(zhuǎn)換成四角編碼,從而基于編輯距離計(jì)算漢字的相似度。
上述文字編碼對(duì)編碼規(guī)則的依賴極強(qiáng),然而,這些編碼規(guī)則無法有效地刻畫部首與部首之間的相似度。以漢字為例,五筆碼、倉頡碼、四角碼等均基于漢字的部首和/或筆畫等組件,但是編碼結(jié)果之間的編輯距離常常無法體現(xiàn)出漢字之間的相似程度,例如,“宇”字的五筆編碼為“PGFJ”,“盱”字的五筆編碼為“HGFJ”,兩者之間的編輯距離僅僅為1,但這兩個(gè)字在視覺上并不相似。又例如,“操”字的四角編碼為56094,“燥”字的四角編碼為96894,兩個(gè)碼字之間僅有2個(gè)相同字符,編輯距離較大,然而這兩個(gè)字的相似度實(shí)則極高。此外,對(duì)于筆畫數(shù)特別少的文字,例如,“二”和“三”、“干”和“于”,也難以通過碼字之間的編輯距離來判斷近似性。
可以看出,基于碼字之間的編輯距離來判斷文字近似性時(shí)必然受到編碼規(guī)則的限制,也就是說,編碼時(shí)損失掉的那部分文字特點(diǎn)信息導(dǎo)致難以有效地衡量文字的形近程度。
發(fā)明內(nèi)容
本發(fā)明的示例性實(shí)施例旨在克服現(xiàn)有技術(shù)中難以準(zhǔn)確識(shí)別形近文字的缺陷。
根據(jù)本發(fā)明的示例性實(shí)施例,提供一種用于確定文字形近度的方法,包括:(A)將待比較的第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換,以得到相應(yīng)的第一圖片和第二圖片;(B)確定第一圖片與第二圖片之間的像素匹配情況;以及(C)基于確定的像素匹配情況來確定第一文字與第二文字之間的形近度。
可選地,在所述方法中,在步驟(A)中,按照點(diǎn)陣字體將第一文字和第二文字分別進(jìn)行圖片格式轉(zhuǎn)換。
可選地,在所述方法中,在步驟(B)中,以單個(gè)像素為單位來確定第一圖片與第二圖片之間的像素匹配情況。
可選地,在所述方法中,步驟(B)包括:(b1)對(duì)第一圖片和第二圖片的像素分別進(jìn)行二值化處理;以及(b2)確定經(jīng)過二值化處理之后的第一圖片與第二圖片之間的像素匹配情況。
可選地,在所述方法中,步驟(B)包括:(b3)對(duì)第一圖片和第二圖片分別進(jìn)行至少一種幾何變換;以及(b4)確定幾何變換之前的第一圖片以及經(jīng)過每種幾何變換后的第一圖片分別與幾何變換之前的第二圖片以及經(jīng)過每種幾何變換后的第二圖片之間的像素匹配情況;并且,步驟(C)包括:(c1)分別基于每個(gè)確定的像素匹配情況來確定第一文字與第二文字之間的候選形近度;以及(c2)將確定的候選形近度之中的最高候選形近度確定為第一圖片與第二圖片之間的形近度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于第四范式(北京)技術(shù)有限公司,未經(jīng)第四范式(北京)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710067064.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





