[發(fā)明專利]基于中文類型字符的結構編碼中文類型字符(CJK字符)的方法無效
| 申請?zhí)枺?/td> | 200980154300.2 | 申請日: | 2009-12-28 |
| 公開(公告)號: | CN102272753A | 公開(公告)日: | 2011-12-07 |
| 發(fā)明(設計)人: | 趙仁杰 | 申請(專利權)人: | 趙仁杰 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22 |
| 代理公司: | 北京市中咨律師事務所 11247 | 代理人: | 劉薇;楊曉光 |
| 地址: | 法國*** | 國省代碼: | 法國;FR |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 中文 類型 字符 結構 編碼 cjk 方法 | ||
技術領域
本發(fā)明涉及編碼中文類型字符的方法。
背景技術
中文類型字符,一是指在書寫在中國說的漢語中使用的字符,也指在諸如中國大陸、日本、韓國、越南、臺灣、香港、澳門、朝鮮、新加坡、馬來西亞的不同國家或地區(qū)中使用(或曾經使用)的相同起源的字符。
中文類型字符組成非常重要的字符集合(幾萬個),這些字符看起來都不相同。另外,該集合是開放的,這意味著新的字符可以加入該集合中。例如,可以創(chuàng)建新的字符以表示由于技術創(chuàng)新而帶來的對象或概念。
因此,從本質上講,該集合是不同于字母表的,因為在字母表中,字母的數量很少(最多幾十個),并且形成封閉式的集合(數量是常數)。
考慮到中文類型字符的特殊性質,在包含所有這些字符的數據庫中搜索指定字符,例如為了在文件中或在紙上打印該字符,或者這些字符的分類,變得非常困難。
對于基于計算機的應用,已經開發(fā)出字符編碼的方法,諸如系統(tǒng),它將代碼與每一個字符相關聯。每個代碼是一串字母數字字符。
這種編碼系統(tǒng)具有很多缺點。由于代碼被隨機地分配給字符,因此,沒有索引的幫助,僅使用字符的代碼找到該字符是不可能的。基于字符的結構對字符進行分類也是不可能的。因此,對包括不屬于現有的已編碼字符的集合的字符的中文文本進行數字化也是不可能的。當前,有大量的這種不能在現有集合中找到的字符。這些字符被稱為“外來字符”,在集合中缺少這些字符的問題被稱為“外來字符問題”。
另外,當新的字符必須添加到集合中時(或者是與技術創(chuàng)新對應的新字符,或者是剛被發(fā)現的字符),被分配給該新的字符的新代碼必然是隨機的。
已知一種編碼中文類型字符的方法,稱為“認圖筆畫方法(Geo-stroke?method)”,并在Yu的美國專利US5,790,055中公開。
每個字符由八位數字代碼標識,包括四位數字結構(FRAME)代碼和四位數字ID代碼。基于字符的四個角的每一個的形狀,將數字與該字符的四個角的每一個相關聯,從而產生FRAME碼。然后,基于一組規(guī)則選擇組成字符的一個塊。然后,基于該塊的四個角的每一個的形狀,將數字與該塊的四個角的每一個相關聯(遵循已知的“四角”方法),從而產生ID碼。如果在兩個截然不同的字符之間存在重復的八位數字代碼,則增加第9個數字來表示在所選擇的塊中某些筆畫的數量,并且如果需要,則增加第10個數字來表示組成該字符的塊的總數量。
然而,“認圖筆畫法”不能夠給出字符的完整結構,因為它不能編碼組成字符的所有塊。“認圖筆畫法”不允許基于字符的結構對字符進行分類。另外,角的幾種不同的形狀與同一個數字相關聯,這妨礙了根據代碼重構字符。
因此,僅通過字符的非選擇塊區(qū)分的字符不能夠區(qū)分彼此,因此,不能解決外來字符問題。
本發(fā)明尋求解決這些缺陷。
發(fā)明內容
本發(fā)明的目的是提供一種基于中文類型字符的結構編碼中文類型字符的方法。
該目的通過該方法包括以下步驟的事實來實現:
(a)按指定順序將所述字符細分成N個單元,所述順序對于所述字符是特定的;
(b)按所述指定順序,將基本描述符與N個單元的每一個相關聯,這些基本描述符的每一個基于其相關聯的所述單元的結構;
(c)定義由在步驟(b)定義的基本描述符組成的基礎標記(base?reference),這些基本描述符按所述指定順序排列。
本發(fā)明的另一個目的是提供一種基于字符的結構對字符分類的方法,其允許以邏輯的方式將新字符添加到已編碼的字符的集合中。
該目的通過該方法包括以下步驟的事實來實現:
(a)檢查所述集合的字符是否是正體(orthodox);
(b)如果所述字符不是正體,則用所述字符的正體形式代替所述字符;
(c)按書寫組成所述字符的正體形式的筆畫的順序,將所述字符的該正體形式細分為4個單元,包含筆畫的所述單元的每一個由基本塊組成,其可在所述單元中重復,所述基本塊在有限的字符列表中選擇;
(d)按所述順序將基本描述符與4個單元的每一個相關聯,這些基本描述符的每一個由表示所述基本塊在所述單元中出現的次數的重復指數和與所述基本塊相關聯的基礎組件組成,并且該基本描述符基于所述基本塊的結構;
(e)定義由在步驟(d)定義的基本描述符組成的基礎標記,這些基本描述符按所述順序排列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于趙仁杰,未經趙仁杰許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200980154300.2/2.html,轉載請聲明來源鉆瓜專利網。





