[發(fā)明專利]計算機(jī)純文本字符的提取方法無效
| 申請?zhí)枺?/td> | 200710122222.0 | 申請日: | 2007-09-24 |
| 公開(公告)號: | CN101122897A | 公開(公告)日: | 2008-02-13 |
| 發(fā)明(設(shè)計)人: | 吳建明 | 申請(專利權(quán))人: | 吳建明 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 計算機(jī) 文本 字符 提取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)純文本字符的提取方法,尤其涉及對使用計算機(jī)編輯并印制紙文件的電子文件的計算機(jī)純文本字符的提取方法。
背景技術(shù)
隨著計算機(jī)技術(shù)的普及使用,人們在大量使用各種格式的電子文件表示思想、意思,同時,也在使用計算機(jī)控制下的各種數(shù)碼印刷機(jī)械(如打印機(jī))同時把這些不同格式的電子文件印制成紙文件,以便保存于交流。
例如,2個企業(yè)在簽署一份經(jīng)濟(jì)合同時,首先在計算機(jī)里起草一份具有文字內(nèi)容的電子文件,雙方同意后,再使用數(shù)碼印刷機(jī)械(如:激光打印機(jī))把這份合同印制到紙張上,雙方分別在紙張文件上蓋章簽字,作為有效信用文件。
人們在相互的思想和意思表示中,需要證明自己的意思表示的真實性,例如,上述合同的蓋章簽字。
在信息時代,大量使用的計算機(jī)電子文件也需要進(jìn)行真實性驗證,從上世紀(jì)九十年代中期開始,國際范圍內(nèi)普遍使用散列函數(shù)與非對稱密鑰體系構(gòu)成的數(shù)字簽名技術(shù)對計算機(jī)電子文件進(jìn)行真實性驗證,為此,各國先后頒布了涉及到對電子文件進(jìn)行數(shù)字簽名認(rèn)證的法律,2005年,我國《電子簽名法》發(fā)布實施,推動了數(shù)字簽名技術(shù)在電子文件真實性驗證中的應(yīng)用。
電子文件是人們思想和意思的計算機(jī)表示方式,由于電子文件具有容易滅失的特點,例如:計算機(jī)病毒破壞,計算機(jī)數(shù)據(jù)存儲介質(zhì)的質(zhì)量差、壽命短,人為損壞等等不可預(yù)見的因素,都容易造成計算機(jī)電子文件的滅失,因此,在很多情況下,需要依靠紙質(zhì)文件記載同一個思想和意思的表示。
計算機(jī)電子文件與使用計算機(jī)控制的數(shù)碼印刷機(jī)械印制的紙質(zhì)文件,都使用人類幾千年形成的語言文字符號供人們閱讀。
計算機(jī)使用代碼表示這些語言文字符號,如:計算機(jī)中使用的十進(jìn)制ASCII字符代碼,十六進(jìn)制的Unicode字符代碼,十六進(jìn)制的國標(biāo)簡體中文字符代碼。
數(shù)字簽名技術(shù)對一份電子文件的真實性認(rèn)證,只是對組成這份電子文件的一系列計算機(jī)字符代碼集合的認(rèn)證。如:“(1)我是中國人”是由7個字符,即“(1)”、“半角空格”、“我是中國人”5個漢字組成,認(rèn)證時,計算機(jī)只要把代表這些字符的計算機(jī)代碼集合即可,即:“(1)”是帶括號字母數(shù)字代碼“A2C5”,“半角空格”代碼“0020”,“我”代碼“CED2”,“是”代碼“CAC7”,“中”代碼“D6D0”,“國”代碼“B9FA”,“人”代碼“C8CB”,集合為“A2C50020CED2CAC7D6D0B9FAC8CB”的16進(jìn)制數(shù)組。
由于計算機(jī)技術(shù)是從英文國家向多語言文字的國家發(fā)展的,在計算機(jī)字符集,就有許多一個意義的視覺字符有多個區(qū)位碼表示的現(xiàn)象,例如:英文字母數(shù)字有半角與全角兩種輸入和表示方式,相對應(yīng)的,也就有2個區(qū)位碼對應(yīng)一個意義的字母數(shù)字;同時,為方便計算機(jī)輸入、提高文字符號錄入速度,在字符輸入法設(shè)計中,也有把多個符號集合為1個符號的處理方法。
檢索國標(biāo)簡體中文字符集,有以下幾類容易混淆的字符代碼:
如:“.”的全角字母數(shù)字代碼是“A3AE”,而“.”半角字母數(shù)字代碼是“002E”。
如:“3.”是“A2B3”一個代碼表示的字符,而“3.”是由“0033”代碼表示的“3”與“002E”代碼表示的“.”2個字符組成的。
如:??“(1)我是中國人”這句話中的“(1)”是一個代碼“A2C5”表示;而“(1)”則可以由3個半角字符“(”、“1”、“)”的代碼“0028?0031?0029”表示。
再如:一份文件中有許多空格,而在計算機(jī)字符集中,空格有“半角空格”與“全角空格”2種形式,分別由代碼“0020”、“A1A1”表示。
在計算機(jī)電子文件中,使用區(qū)位碼可以很容易地區(qū)分這些字符;但是,當(dāng)這些字符通過計算機(jī)控制的數(shù)碼印刷機(jī)械印制到紙張上以后,如同在本文件中所表現(xiàn)的,根據(jù)字符的視覺形態(tài),是無法辨認(rèn)其計算機(jī)代碼表示方法的。同樣,在一份打印好的紙張文件上,也不能判斷出究竟有多少計算機(jī)空格字符,這些空格字符中有幾個全角空格,幾個半角空格,我們也無法辨別。
“(1)我是中國人”這句話印制在紙張上,如果我們想通過計算機(jī)數(shù)字簽名技術(shù)認(rèn)證紙張上的這句話的真實性,則需要把這句話的字符代碼再輸入到計算機(jī)中,使用散列函數(shù)中運(yùn)算;由于這句話中的“(1)”的計算機(jī)字符表示方法有2種,組成的代碼集合也就有不同的2組:
一組是:“A2C5?0020?CED2?CAC7?D6D0?B9FA?C8CB”,7個代碼;
另一組:“0028?0031?0029?0020?CED2?CAC7?D6D0?B9FA?C8CB”,9個代碼;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吳建明,未經(jīng)吳建明許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710122222.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:自行車的單向傳動機(jī)構(gòu)
- 下一篇:一種扶手鎖緊裝置
- 雙桌面遠(yuǎn)程控制系統(tǒng)及方法
- 一種基于網(wǎng)絡(luò)的計算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計算機(jī)信息檢索系統(tǒng)與方法
- 雙計算機(jī)系統(tǒng)
- 制導(dǎo)雷達(dá)計算機(jī)系統(tǒng)
- 一種服務(wù)部署方法及裝置
- 一種計算機(jī)集成系統(tǒng)及故障自動切換方法
- 一種計算機(jī)信息安全監(jiān)控系統(tǒng)
- 混合型量子計算機(jī)架構(gòu)及其執(zhí)行計算任務(wù)的方法
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





