[發(fā)明專利]一種漢字編碼的方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 201010528090.3 | 申請(qǐng)日: | 2010-11-02 |
| 公開(kāi)(公告)號(hào): | CN102243623A | 公開(kāi)(公告)日: | 2011-11-16 |
| 發(fā)明(設(shè)計(jì))人: | 潘文林 | 申請(qǐng)(專利權(quán))人: | 泗陽(yáng)天琴軟件科技有限公司 |
| 主分類號(hào): | G06F17/22 | 分類號(hào): | G06F17/22 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 223700 江蘇省*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 漢字編碼 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)文字信息處理
背景技術(shù)
計(jì)算機(jī)的漢字編碼有過(guò)一段曲折的發(fā)展歷史,最早采用的GB?2312-80標(biāo)準(zhǔn),由于漢字的數(shù)量有幾萬(wàn)甚至十幾萬(wàn),該標(biāo)準(zhǔn)的編碼就無(wú)法滿足其需求了,因此有GBK,乃至ISO10646/Unicode標(biāo)準(zhǔn)。下面簡(jiǎn)單介紹一下這些標(biāo)準(zhǔn)的內(nèi)容:
GB2312有6763個(gè)漢字,包含所有的第一級(jí)漢字和第二級(jí)漢字中的常用部分2第一級(jí)漢字(16-55區(qū)的漢字)以拼音字母為序進(jìn)行排列,同音字以筆形順序橫、豎、撇、捺、折為序,起筆相同的按第二筆,依次類推;第二級(jí)漢字(56-87區(qū)的漢字)按部首為序進(jìn)行排列。
GBK有21003個(gè)漢字,是雙字節(jié)編碼,每個(gè)字符用兩個(gè)字節(jié)表示。共23940個(gè)碼位,定義了21886個(gè)字符,包括21003個(gè)漢字和883個(gè)圖形符號(hào)。
GB18030是國(guó)家強(qiáng)制標(biāo)準(zhǔn),多字節(jié)字符集,它的字符可以用一個(gè)、兩個(gè)或四個(gè)字節(jié)表示,GB18030-2000要求支持27533個(gè)漢字,最新GB18030-2005有70244個(gè)漢字。
ISO10646/Unicode規(guī)定了一套字符集,如果不算兼容區(qū),目前有70217個(gè)漢字。包含了世界上的大多數(shù)字符,規(guī)定了這些字符的編碼,每個(gè)編碼可以理解為一個(gè)數(shù)字,美國(guó)的Unicode只規(guī)定了字符集,只規(guī)定了1對(duì)應(yīng)的是什么字符,2對(duì)應(yīng)的是什么字符。至于傳輸和存儲(chǔ),各個(gè)系統(tǒng)必須自己實(shí)現(xiàn)。
GB18030雙字節(jié)部分與Unicode的映射沒(méi)有規(guī)律,只能通過(guò)查表方法映射。
無(wú)論是Windows?XP還是Vista,中文(中國(guó))區(qū)域?qū)?yīng)的默認(rèn)代碼頁(yè)還是GBK。我們只能設(shè)置區(qū)域,并不能設(shè)置區(qū)域?qū)?yīng)的默認(rèn)代碼頁(yè)。所以在Windows世界,只要微軟不愿意,GB18030就只是一張普通的代碼頁(yè)。
目前的簡(jiǎn)體中文文檔使用的編碼主要是Unicode和GBK,應(yīng)該沒(méi)有什么文檔會(huì)用GB18030保存。
以上的編碼的根本缺點(diǎn)是占用了大量的計(jì)算機(jī)內(nèi)存資源,缺乏擴(kuò)展性,如果增添新發(fā)現(xiàn)的古字或者其他的漢字,目前的編碼中無(wú)法應(yīng)付這些新增加的漢字,又要重新給這些漢字編碼,因此這樣的一個(gè)編碼系統(tǒng),無(wú)論是18030還是Unicode,具有的封閉型,占用資源,而且因?yàn)闆](méi)有規(guī)律可循,漢字的檢索速度慢。
發(fā)明內(nèi)容
本發(fā)明就是針對(duì)目前的漢字編碼,在GB?2312-80的基礎(chǔ)上,進(jìn)行了改進(jìn),其根據(jù)就是漢字元的發(fā)明方法。
字元數(shù)量的90%左右采用國(guó)家1-2級(jí)漢字,其余的根據(jù)具體需要從總的漢字篩選,字元的數(shù)量大概在4000個(gè)左右,因此GB2312一級(jí)漢字的編碼可以滿足這些字元的分配使用,漢字的部件/偏旁部首(非成字)部分采用編碼范圍6001~6999。
漢字的編碼分為以下3種情況:
1?“字元+部件”或者的“部件+字元”漢字,采用“部件編碼+字元編碼”,分別對(duì)應(yīng)編碼的高4位和低4位
2?“漢字+字元”或者“字元+漢字”采用漢字編碼+字元編碼,分別對(duì)應(yīng)編碼的高4位和低4位,這里
特殊例子,如“峰”和“峯”,為了保證其編碼的唯一性,取其中的漢字山的編碼的補(bǔ)碼。方法是先把該字元的4位十六進(jìn)制編碼轉(zhuǎn)換成八位二進(jìn)制編碼,然后取其的補(bǔ)碼,在轉(zhuǎn)換成4位十六進(jìn)制編碼。注意字元是個(gè)相對(duì)概念,如“峰”,“夆”是字元,“山”是漢字;但是在“燦”中,“山”是字元,
3?“部件x+部件y”,采用8位編碼,順序是先上后下,先左后右,先外后里。
這里的部件是現(xiàn)代漢語(yǔ)意義上的非成字偏旁部首,如“疒”、“阝”等。
字元的編碼按照漢語(yǔ)拼音的排序,采用4位十六進(jìn)制編碼;比如字元“阿”字的編碼依舊是“1601”;GB8213中,漢字“華”的編碼是“2710”,“木”是“3630”,“樺”是“7275”按照本發(fā)明的編碼,不需要為“樺”單獨(dú)編碼,其編碼是“36302710”。
因此理論上只要有這4千個(gè)左右的字元編碼和一千個(gè)部件/部首的編碼,能夠滿足所有的漢字編碼,目前估計(jì)漢字的總量大概在十萬(wàn)左右。該方法能夠節(jié)省大量的計(jì)算機(jī)內(nèi)存資源,可以對(duì)新補(bǔ)充的漢字,不必重新分配編碼,理論上可以滿足百萬(wàn)個(gè)漢字的編碼,同時(shí)編碼根據(jù)字元的漢語(yǔ)拼音順序,有邏輯性,能夠提升漢字的檢索速度,為中國(guó)的漢字編碼制定國(guó)際標(biāo)準(zhǔn)提供了依據(jù)。
具體實(shí)施方式
把從1-2級(jí)漢字選取3000多個(gè)漢字,然后在從目前的漢字總量選取1000個(gè)左右的字元,根據(jù)其漢字拼音進(jìn)行排序,原則上,每個(gè)字元對(duì)應(yīng)30-100個(gè)漢字,在GB8213的基礎(chǔ)上,對(duì)每個(gè)字元進(jìn)行編碼。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于泗陽(yáng)天琴軟件科技有限公司,未經(jīng)泗陽(yáng)天琴軟件科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010528090.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





