[發明專利]一種筆畫編碼結合漢字點陣的形近字分類方法有效
| 申請號: | 201611065190.0 | 申請日: | 2016-11-28 |
| 公開(公告)號: | CN106598920B | 公開(公告)日: | 2019-09-27 |
| 發明(設計)人: | 邵玉斌;王逍翔 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 筆畫 編碼 結合 漢字 點陣 形近字 分類 方法 | ||
本發明提供了一種筆畫編碼結合漢字點陣的形近字分類方法,通過對漢字對應的筆畫編碼進行統計,以筆畫結構出現頻率將漢字進行分類生成數據表,每種筆畫成分對應包含此成分的漢字集合;然后對集合進行篩選,濾除筆畫成分較短和較長的集合,將后者添加到形近字數據庫中;對過濾后的漢字集合采用漢字點陣比較的方法進行進一步處理,通過比較同一漢字集合內的漢字的點陣,將相似率較低的漢字濾除,將處理后的漢字集合添加到形近字數據庫中;通過以上步驟,就得到了包含大部分漢字的形近字數據庫,查詢一個漢字的形近字只需要查詢其所在的表就可得到它的形近字。本發明提高了形近字分類效率,節約了分類所消耗的時間,獲得了較為準確的形近字數據。
技術領域
本發明屬于語言處理領域,特別涉及一種漢字形近字分類方法。
背景技術
漢字由簡單的幾種筆畫組成,但由于它們在二維空間排列組合,便形成了種類繁多、結構復雜的漢字。構成漢字字形的各種特定的點和線,也是漢字的最小結構單位。根據楷書書寫要求,從落筆到抬筆即為一筆,又叫一畫,合稱筆畫,筆畫的具體形狀叫筆形。由此產生的各種字根形成了眾多形態結構相似的漢字,被稱為形近字。
形近字的識別涉及字形識別。字形識別服務于生活的方方面面,如手寫輸入,從圖像中獲取漢字信息,紙質文本轉錄等,并且這項技術在生活中已經得到了廣泛的應用。漢字的字形識別對于如今的技術而言已經不存在問題,對印刷體來說識別精度更高。獲取漢字點陣是字形識別的第一步。在漢字的點陣字庫中,每個字節的每個位都代表一個漢字的一個點,每個漢字都是由一個矩形的點陣組成,0代表沒有,1代表有點,將0和1分別用不同顏色畫出,就形成了一個漢字。通過點陣的比較就可以發現字形結構之間的相關性。
筆順編碼是為了記錄漢字筆畫的書寫順序而設定的具體的筆畫的編號。其中,1代表橫,2代表豎,3代表撇,4代表捺,5代表折,另外,提為橫,點為捺,豎勾為豎,橫折為折,豎提為豎,這樣所有字就可用1、2、3、4、5這5個符號表示,如圖2所示,“李”字的筆畫編碼是橫、豎、撇、捺、折、豎、橫,轉換成編號是:1234521。筆順編碼包含了漢字的筆畫順序和結構信息,對漢字結構的對比識別有一定作用,但由于編碼并未精確表示漢字的基礎部件,所以編碼所包含的漢字信息并不完整。
識別形近字的意義在于,不僅可以幫助使用字形編碼輸入方式時,如五筆、鄭碼、手寫等輸入法,幫助用戶提供易錯參考,校驗文本正確性,還可以應用于兒童識字教學作為參考實例,同時,對系統性的研究漢字結構特點有一定幫助。目前,形近字的識別多為人工收集方式,工作量大,費時費力。
發明內容
為了解決上述問題,本發明提供了一種用于漢字形近字分類的方法,該方法實現了機器對形近字自動的分類,為人節約了大量時間和精力。
本發明解決其技術問題采用的技術方案是:提供一種用于漢字形近字分類的語言處理方式,包括如下步驟:
步驟一、統計筆畫編碼表中所有筆畫結構出現的頻度,將出現次數低于10次的筆畫結構濾除并排序,將包含相應筆畫結構的漢字組成一個集合對應于此筆畫結構,由此得到若干個漢字集合;
步驟二、對步驟一得到的漢字集合進行篩選,濾除編碼長度小于4的筆畫結構對應的漢字集合,將剩余的漢字集合添加到形近字數據庫中,每個集合生成一張形近字表;
步驟三、對步驟二得到的漢字集合中的漢字進行點陣比較并計算平均相似度,把平均相似度較低的漢字濾除,得到處理后的漢字集合,將其以步驟二中相同的方法保存到形近字數據庫中。
優選的,所述步驟三種漢字點陣比較采用對位比較的方法,計算得到兩個漢字的相似度,將點陣表示為由0,1表示的16×16矩陣,有漢字筆畫的位置為1,反之為0,相似度計算公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611065190.0/2.html,轉載請聲明來源鉆瓜專利網。





