[其他]序列字根法漢字信息處理技術無效
| 申請號: | 85102473 | 申請日: | 1985-04-01 |
| 公開(公告)號: | CN85102473B | 公開(公告)日: | 1987-11-25 |
| 發明(設計)人: | 于明江;李中偉;于靜 | 申請(專利權)人: | 山東電子研究所 |
| 主分類號: | G06F3/023 | 分類號: | G06F3/023 |
| 代理公司: | 山東省專利服務處 | 代理人: | 周長義 |
| 地址: | 山東省濟*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 序列 字根 漢字 信息處理 技術 | ||
本發明是計算機漢字信息處理領域不設漢字庫而能處理漢字的一項新技術。
計算機漢字信息處理的研究已獲得較大進展,并已在許多領域得到應用。圖1列出了三種有代表性的漢字處理方法。圖1(a)是當前較為流行的漢字處理方法。該法的特點是機內有一個漢字庫(3),存一定字數的點陣信息。輸入時將漢字按某種編碼用鍵盤(1)送入機器,由機器換碼(2)后變成機中的內部碼,供內部處理用。在輸出時根據漢字的內部碼到字庫(3)里取出漢字點陣信息,直接送輸出設備(4)輸出。由于字庫里存的是點陣,輸出時較易處理。缺點是占內存大,軟盤字庫速度太慢;EPROM字庫價格較貴。
為了減少占內存容量,不少單位研制了壓縮字庫。壓縮字庫有多種類型,但采用最多的是圖1(b)所示的字根式壓縮漢字庫。字根庫(8)中收存組成漢字的字根信息,壓縮字庫(7)中收存每個漢字有哪些字根以及這些字根的相對比例關系的信息。該法輸入方法與整字存貯的方法相同,在輸出時,由漢字的機內碼取出字庫中的字根組合信息,配合字根信息合成漢字(9)后輸出。該法較圖1(a)所示方法可大大節省內存,但4000字仍需幾十K內存,另有字型質量差,合成漢字速度低的問題。
本發明的發明人之一于明江,1983年5月在武漢召開的中國中文信息研究會第二次全國學術會議上,發表了題為《無字庫漢字信息處理》的論文,首次提出了“無字庫漢字信息處理”的概念,并闡述了一種不設漢字庫的構思。根據這一構思,漢字處理的過程如圖1(c)所示。輸入時將漢字分解成一串序列字根用鍵盤(11)輸入機內,經(12)代換成序列字根代碼串,在存貯、處理時同英文計算機處理字符串一樣處理字根串,而在輸出時,根據字根串的定位信息及字根信息從字根庫(14)取出字根筆劃端點坐標合成一個漢字(13)后,經輸出設備(15)輸出。經原理性實驗,證明該法原理是可行的,但存在合字速度慢,字型質量差的問題。
發明目的:
把無字庫漢字信息處理的設想推進到實用階段。為計算機漢字信息處理開辟一條更加合理的可行之路
詳細技術說明:
為把無字庫漢字信息處理的設想推進到實用階段,在序列字根代碼系、漢字輸入與機內代碼形成、序列字根代碼變換成漢字點陣模圖的三個關鍵環節上,發明了一系列新的技術和方法。
一、序列字根代碼系
1.序列字根代碼系的構成
序列字根代碼系是一種與GB1988-80七位編碼字符集兼容的不等長代碼系。它最適合在中英文混合處理的電子計算機或其他設備內部使用。它的主要元素包括:(1)漢字基本構件(字根符),(2)基本構件的排列(定位符),(3)漢字區分標志(標識符),也可含有(4)擴展漢字處理功能的其他信息(格式控制符)。
序列字根代碼系主要元素的取值范圍,除了標識符之外,均在GB1988-80字符集中相當于10個阿拉伯數字和26個大寫字母的位組范圍內,也就是圖2中畫有斜線的3/0~3/9和4/1~5/10這36個位組。而標識符是GB1988-80字符集中除前述36個位組之外的任意一個圖形字符所在的位組。
字根符由兩個字節組成。前面的為第一字節,后面的為第二字節,每個字節都用GB1988-80中3/0~3/9和4/1~5/10的位組表示。其碼值需根據所選定根的多少,選擇上述36個位組中全部或部分位組統一編碼后確定。
定位符也由兩字節組成。第一字節是選定的標識符,第二字節是3/0~3/9和4/1~5/10的36個位組中的一個。
格式控制符由前導的三個字節和若干參數組成。前導的三字節中,第一字節是標識符。第二字節是3/0~3/9和4/1~5/10這36個位組中除定位符占用的以外的一個。第三字節是上述36個位組中的一個。
2.編碼的用法
(1)標識符的任意指定:標識符是定位符和格式控制符中不可缺少的一部分。在每種語言環境下,都可由用戶(而不光是系統改造者和系統設計者)通過鍵盤或其他設備在標識符的取值范圍內任選一個。標識符指定后,由機器在需要時自動插入,用戶不再干預。
(2)代碼系的進入:選定標識符后,定位符、格式控制符均以標識符打頭。而漢字的第一個符號必然是定位符,因此,只要一見標識符,即宣告進入本代碼系。
(3)代碼系的退出:每個定位符都隱含著其后字根的個數,格式控制符隱含著參數個數,一旦條件滿足,便自動退出。
(4)中英文混合的文字串中之英文
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東電子研究所,未經山東電子研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/85102473/2.html,轉載請聲明來源鉆瓜專利網。





