[發明專利]一種基于特征向量和筆順編碼的漢字字形相似算法在審
| 申請號: | 201810860010.0 | 申請日: | 2018-08-01 |
| 公開(公告)號: | CN109299726A | 公開(公告)日: | 2019-02-01 |
| 發明(設計)人: | 龍華;祁俊輝;邵玉斌;彭藝 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/32 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 漢字筆順編碼 漢字特征向量 漢字字形 算法 字形相似度 筆順編碼 特征向量 數據庫 漢字 信息處理技術 相似度計算 最終相似度 差值算法 漢字結構 算法計算 相似程度 相似度 字符串 筆畫 調取 漢語 書寫 融合 計算機 | ||
1.一種基于特征向量和筆順編碼的漢字字形相似算法,其特征在于:
Step0.1:從TTC字體文件中提取出每個漢字所對應的圖片,即漢字圖片大小為l×w,單位為像素點,共計N個像素點;將漢字圖片作為輸入源,生成該漢字所對應的漢字矩陣Il×w,該矩陣中的元素值即為該像素點的灰度值;定義ξ為灰度二值化閾值,對矩陣進行公式(1)所示二值化處理,之后將矩陣Il×w按照從左至右、從上至下的規則生成該漢字所對應的特征向量{x1,x2,…,xN};將所有漢字及生成的漢字特征向量存入數據庫,組建漢字特征向量數據庫;
Step0.2:按照漢字五筆書寫順序規則,將橫、豎、撇、捺、折編碼為字母a、b、c、d、e,生成該漢字所對應的筆順編碼字符串x1x2…xz,其中z為該漢字的筆畫數,xi為該漢字第i筆的筆畫,并且xi∈{a,b,c,d,e},i∈[1,z];將所有漢字及生成的漢字筆順編碼字符串存入數據庫,組建漢字筆順編碼數據庫;
Step1:記X、Y為兩個將要計算字形相似度的漢字,從漢字特征向量數據庫中分別調取這兩個漢字所對應的漢字特征向量X:{x1,x2,…,xN}和Y:{y1,y2,…,yN},從漢字筆順編碼數據庫中分別調取這兩個漢字所對應的漢字筆順編碼字符串strx和stry;
Step2:將漢字特征向量X:{x1,x2,…,xN}和Y:{y1,y2,…,yN}作為輸入,由差值算法求得漢字X、Y之間基于特征向量的字形相似度Sim1(X,Y);
Step2.1:定義zi=xi-yi,i∈[1,N],生成漢字X、Y所對應的差值特征向量
Step2.2:通過差值計算公式(2)求得漢字X、Y之間基于特征向量的字形相似度Sim1(X,Y);
Step3:將漢字筆順編碼字符串strx和stry作為輸入,由Jaro-Winkler Distance算法求得漢字X、Y之間基于筆順編碼的字形相似度Sim2(X,Y);
Step3.1:獲取漢字筆順編碼字符串strx和stry的長度lenx和leny,并生成檢測矩陣
Step3.2:根據公式(3)計算匹配窗口值MW;
Step3.3:由檢測矩陣及匹配窗口值MW,根據相關規則,計算匹配字符數m和匹配字符換位數n,并根據公式(4)計算漢字筆順編碼字符串strx和stry之間的JaroDistance;
Step3.4:獲取漢字筆順編碼字符串strx和stry的最長公共子串strxy,并得到其長度lenxy,根據公式(5)進一步計算漢字筆順編碼字符串strx和stry之間的Jaro-WinklerDistance,該值即為漢字X、Y之間基于筆順編碼的字形相似度Sim2(X,Y);
其中,bt為是否需要進一步計算的閾值,p為縮放因子;
Step4:設Step2、Step3步驟所計算出的相似度對應權值分別為α、β,權值α、β滿足α+β=1的要求,由基于特征向量的字形相似度Sim1(X,Y)及權值α、基于筆順編碼的字形相似度Sim2(X,Y)及權值β,由相似度融合算法,即公式(6)計算出漢字X、Y之間的最終字形相似度Sim(X,Y);
Sim(X,Y)=Sim1(X,Y)·α+Sim2(X,Y)·β (6)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810860010.0/1.html,轉載請聲明來源鉆瓜專利網。





