[發明專利]一種筆畫編碼結合漢字點陣的形近字分類方法有效
| 申請號: | 201611065190.0 | 申請日: | 2016-11-28 |
| 公開(公告)號: | CN106598920B | 公開(公告)日: | 2019-09-27 |
| 發明(設計)人: | 邵玉斌;王逍翔 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 筆畫 編碼 結合 漢字 點陣 形近字 分類 方法 | ||
1.一種筆畫編碼結合漢字點陣的形近字分類方法,其特征在于,包括以下步驟:
步驟一、統計筆畫編碼表中所有筆畫結構出現的頻度,將出現次數低于10次的筆畫結構濾除并排序,將包含相應筆畫結構的漢字組成一個集合對應于此筆畫結構,由此得到若干個漢字集合;
步驟二、對步驟一得到的漢字集合進行篩選,濾除編碼長度小于4的筆畫結構對應的漢字集合,將剩余的漢字集合添加到形近字數據庫中,每個集合生成一張形近字表;
步驟三、對步驟二得到的漢字集合中的漢字進行點陣比較并計算平均相似度,求所有漢字的相似平均度的平均值,將低于平均值80%對應的漢字濾出,得到處理后的漢字集合,將其以步驟二中相同的方法保存到形近字數據庫中。
2.根據權利要求1所述的筆畫編碼結合漢字點陣的形近字分類方法,其特征在于:所述步驟三種漢字點陣比較采用對位比較的方法,計算得到兩個漢字的相似度,將點陣表示為由0,1表示的16×16矩陣,有漢字筆畫的位置為1,反之為0,相似度計算公式如下:
其中,i,j為一個漢字集合中兩個漢字的標號,Xij表示兩個漢字的相似度,m代表矩陣的行,n代表矩陣的列,Wimn代表漢字i的m行n列的值,Wjmn代表漢字j的m行n列的值。
3.根據權利要求1或2所述的筆畫編碼結合漢字點陣的形近字分類方法,其特征在于:所述步驟三中漢字集合中每個漢字的平均相似度計算如下:
其中,Sn代表字n的平均相似度,i代表字i,n代表字n,Li代表字i的筆畫編碼長度,Ln代表字n的筆畫編碼長度,Xin代表兩個字的相似度,N代表集合中除去字n的字的總數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611065190.0/1.html,轉載請聲明來源鉆瓜專利網。





