[發明專利]一種基于特征向量和筆順編碼的漢字字形相似算法在審
| 申請號: | 201810860010.0 | 申請日: | 2018-08-01 |
| 公開(公告)號: | CN109299726A | 公開(公告)日: | 2019-02-01 |
| 發明(設計)人: | 龍華;祁俊輝;邵玉斌;彭藝 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/32 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 漢字筆順編碼 漢字特征向量 漢字字形 算法 字形相似度 筆順編碼 特征向量 數據庫 漢字 信息處理技術 相似度計算 最終相似度 差值算法 漢字結構 算法計算 相似程度 相似度 字符串 筆畫 調取 漢語 書寫 融合 計算機 | ||
本發明涉及一種基于特征向量和筆順編碼的漢字字形相似算法,屬于漢語信息處理技術領域。本發明利用漢字結構、輪廓、筆畫、書寫順序等特征,建立漢字特征向量數據庫和漢字筆順編碼數據庫,對任意兩個漢字調取其漢字特征向量和漢字筆順編碼字符串,通過差值算法計算出基于漢字特征向量的字形相似度,通過Jaro?Winkler Distance算法計算出基于漢字筆順編碼的字形相似度,兩個相似度分別從不同方面反映了漢字的相似程度,吸取兩種算法的優勢對其進行融合,得到最終相似度。本發明與現有技術相比,主要解決了現有技術準確性欠佳、靈活性差等現象,增加了目前依靠計算機進行漢字字形相似度計算的準確性。
技術領域
本發明涉及一種基于特征向量和筆順編碼的漢字字形相似算法,屬于漢語信息處理技術領域。
背景技術
文字是人類進行信息交流的主要工具,但由于許多漢字存在形體相似導致錯識、錯識,所以正確區分出這些易混淆的形近字對漢語教學、漢文編輯、排版、漢文機器識別、漢語廣播等業務具有重要意義。
目前,針對漢字字形相似的算法主要分為兩類:一類是獲取漢字的基礎信息,如字形結構、筆畫數、筆畫順序等,將這些數據按照一定的編碼規則生成數學表達式,再利用特定算法通過對數學表達式的處理進而獲得漢字的字形相似度;另一類是采用圖像處理技術提取漢字特征,對比差異化特征。但是這兩類方法都有各自的缺陷,若使用第一類方法,需設定一些系數來平衡最終的輸出結果;若使用第二類方法,對于一些復合字的相似度計算結果較差。
發明內容
本發明要解決的技術問題是針對現有技術的局限和不足,提供一種基于特征向量和筆順編碼的漢字字形相似算法,以解決現有技術準確性欠佳、靈活性差等現象,致力于增加目前依靠計算機進行漢字字形相似度計算的準確性。
本發明的技術方案是:一種基于特征向量和筆順編碼的漢字字形相似算法,具體步驟為:
Step0.1:從TTC字體文件中提取出每個漢字所對應的圖片,即漢字圖片大小為l×w(單位為像素點),共計N個像素點;將漢字圖片作為輸入源,生成該漢字所對應的漢字矩陣Il×w,該矩陣中的元素值即為該像素點的灰度值;定義ξ為灰度二值化閾值,對矩陣進行公式(1)所示二值化處理,之后將矩陣Il×w按照從左至右、從上至下的規則生成該漢字所對應的特征向量{x1,x2,…,xN};將所有漢字及生成的漢字特征向量存入數據庫,組建漢字特征向量數據庫;
Step0.2:按照漢字五筆書寫順序規則,將橫、豎、撇、捺、折編碼為字母a、b、c、d、e,生成該漢字所對應的筆順編碼字符串x1x2…xz,其中z為該漢字的筆畫數,xi為該漢字第i筆的筆畫,并且xi∈{a,b,c,d,e},i∈[1,z];將所有漢字及生成的漢字筆順編碼字符串存入數據庫,組建漢字筆順編碼數據庫;
Step1:記X、Y為兩個將要計算字形相似度的漢字,從漢字特征向量數據庫中分別調取這兩個漢字所對應的漢字特征向量X:{x1,x2,…,xN}和Y:{y1,y2,…,yN},從漢字筆順編碼數據庫中分別調取這兩個漢字所對應的漢字筆順編碼字符串strx和stry;
Step2:將漢字特征向量X:{x1,x2,…,xN}和Y:{y1,y2,…,yN}作為輸入,由差值算法求得漢字X、Y之間基于特征向量的字形相似度Sim1(X,Y);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810860010.0/2.html,轉載請聲明來源鉆瓜專利網。





