[發明專利]補字的排序存儲方法及裝置、創建補充字庫的方法及裝置有效
| 申請號: | 201310364886.3 | 申請日: | 2013-08-20 |
| 公開(公告)號: | CN104424196B | 公開(公告)日: | 2018-05-01 |
| 發明(設計)人: | 高玉軍 | 申請(專利權)人: | 北大方正集團有限公司;方正信息產業控股有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京天昊聯合知識產權代理有限公司11112 | 代理人: | 羅建民,鄧伯英 |
| 地址: | 100871 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 排序 存儲 方法 裝置 創建 補充 字庫 | ||
技術領域
本發明涉及計算機字符信息處理領域,具體涉及補字的排序存儲方法及裝置、創建補充字庫的方法及裝置。
背景技術
截至目前,已經頒布的國際編碼標準ISO/IEC10646:2003,和國家編碼標準GB13000-2010、GB18030-2005中,已收錄CJK統一漢字、CJK統一漢字擴充集A和CJK統一漢字擴充集B,共計70195字,而CJK統一漢字擴充集C1正在制定過程中。然而,如此龐大的字符集仍無法滿足現有的使用需求。例如,無法滿足公民個人信息中姓名、住址用字的需求。也就是說,公民個人信息的姓名、住址中的冷僻字,目前仍然沒有被國際或國家編碼標準所收錄,因而現有的符合國際或國家編碼標準的字庫,都不支持公民個人信息中大量冷僻字的錄入、顯示、打印、存儲、讀取、傳輸、交換及處理,從而導致在涉及到公民個人信息處理的領域,例如公安人口信息管理系統、第二代居民身份證制證系統、銀行、保險、海關等,經常會遇到居民姓名、住址中冷僻字的處理問題。
目前的現狀是:用戶發現自己使用的輸入法無法錄入某些漢字時,并不清楚是國際或國家編碼標準中尚未收錄該漢字,還是輸入法未能覆蓋現有的國際或國家編碼標準,且不經編碼查重,就按照自己的需求隨便地補入一個字形,也未經數據整理和字形規范,就隨便地將該字形放入用戶自定義區的某個位置。如此一來,用戶自定義區內的補字沒有進行分級和排序存放,不僅存儲無序、雜亂無章,造成用戶自定義區內存儲空間的浪費及檢索效率的低下。而且,由于未經查重、整理,還可能存在字形重復。更為嚴重的是,這樣產生的補字存儲序列和補字字庫,很難與其它系統進行傳輸、交換。
發明內容
本發明所要解決的技術問題是針對現有技術中所存在的上述缺陷,提供一種能夠避免字形重復,提高存儲及檢索效率,且能夠與其他系統進行傳輸、交換的補字的排序存儲方法及裝置、創建補充字庫的方法及裝置。
解決本發明技術問題所采用的技術方案:
所述補字的排序存儲方法包括如下步驟:
1)判斷待補充字符序列中的所有待補充字符是否均未被現有國際或國家編碼標準收錄,如是,則執行步驟2);
2)對每個待補充字符進行數據整理和字形規范處理,以得出每個待補充字符的屬性信息;
3)根據每個待補充字符的屬性信息,分別形成與每個待補充字符相對應的排序存儲序列和索引值,并根據形成的各個排序存儲序列分別在用戶自定義區的相應位置處存儲對應的待補充字符。
優選地,所述步驟1)中,判斷所述待補充字符序列中的所有待補充字符是否均未被現有國際或國家編碼標準收錄具體為:
11)逐個將所述待補充字符序列中的待補充字符與現有國際或國家編碼標準中所有字符進行多次對比,以從現有國際或國家編碼標準中篩選出分別與每個待補充字符類似的字符或類似的字符序列;
12)逐個將所述待補充字符序列中的待補充字符與其類似的字符或類似的字符序列中的所有字符進行二次對比,若某個待補充字符與其類似的字符或類似的字符序列中的一個字符相同,將該待補充字符從所述待補充字符序列中去除,直至待補充字符序列中的所有待補充字符分別與其類似的字符或類似的字符序列中的所有字符都不同時,執行步驟2)。
優選地,所述對比的方法采用圖片對比或字形數據對比。
優選地,所述現有國際編碼標準包括ISO/IEC10646:2003,所述現有國家編碼標準包括GB18030-2000和GB13000.1-1993。
優選地,所述步驟2)中,待補充字符的屬性信息包括:待補充字符的使用頻率、間架結構、部首筆畫數、部首筆畫順序、除部首外剩余筆畫數、除部首外剩余筆畫順序和拼音。
優選地,所述步驟3)中,根據每個待補充字符的屬性信息,分別形成與每個待補充字符相對應的排序存儲序列和索引值,具體為:
311)根據每個待補充字符的屬性信息分別形成與每個待補充字符相對應的多個排序因子,并為每個待補充字符對應的多個排序因子分別賦予編號和優先級;
312)按照優先級從高到低的順序分別對每個待補充字符對應的多個排序因子進行排序,以分別形成每個待補充字符對應的排序存儲序列,將每個待補充字符對應的排序存儲序列中各個排序因子的編號組合,以分別形成每個待補充字符的索引值。
優選地,所述多個排序因子包括使用頻率排序因子,和間架結構排序因子、部首排序因子、除部首外剩余筆畫排序因子、拼音排序因子中的一種或多種;所述使用頻率排序因子具有最高優先級;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;方正信息產業控股有限公司;北京北大方正電子有限公司,未經北大方正集團有限公司;方正信息產業控股有限公司;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310364886.3/2.html,轉載請聲明來源鉆瓜專利網。





