[發明專利]用于對文本進行處理的方法和系統有效
| 申請號: | 200910136952.5 | 申請日: | 2009-04-30 |
| 公開(公告)號: | CN101876965A | 公開(公告)日: | 2010-11-03 |
| 發明(設計)人: | 左志波;李彬;沙志強;龐麗群 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 王茂華;李輝 |
| 地址: | 美國紐*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 文本 進行 處理 方法 系統 | ||
技術領域
本發明涉及信息處理技術,尤其涉及用于對文本進行處理的方法和系統。
背景技術
在過去的二十多年的時間里,隨著電子技術的迅猛發展,計算機網絡,尤其是互聯網的性能和容量發生了爆炸性的增長。用戶每天利用計算機處理各種信息,編輯形成大量的電子文本。這些電子文本(下文簡稱為文本)包括以文檔方式存儲的文本以及以記錄和表格等方式存儲在數據庫中的文本。這些文本中的信息是個人或企業的重要資產。以文檔或記錄等電子化的方式存儲和處理這些文本,為用戶重復利用其中的信息提供了便利并提高了工作效率。
但是,在一些情況下,文本可能會被損壞(例如,文本文檔被損壞),從而影響對文本中信息的重復利用。這浪費了為形成文本而投入的時間等資源。造成文本被損壞的原因有多種,例如通信故障、存儲介質故障等。操作系統故障、處理文檔的應用程序中的缺陷,也會損壞文檔。文檔損壞是一種可以盡量減少,但是卻很難完全避免的問題。
當文檔被損壞后,用戶經常希望可以從該文檔中找回未被損壞的部分,而不必重新編輯全部文檔內容。對于文字處理類型的文檔,文本往往是其中比較重要的內容,而格式和其它非文本信息往往相對不重要。因此,恢復文檔中的文本比較重要。文本在文檔中,一般根據預定的字符集以字符編碼的方式存儲。
字符集指特定字符的集合,分為單字符集(即單字節編碼字符集)和多字符集(雙字節或多字節編碼字符集)。單字符集主要包括ASCII,Latin-1等編碼字符集,主要用于英文等字母語言。多字符集主要包括GB2312,GBK,GB18030,Shit-JIS,ISO2022等編碼字符集,主要用于中文、日文和韓國文等。微軟的視窗操作系統,其核心用UTF-16編碼,為雙字節編碼,外層應用可以隨著使用語言設置(locale)的不同而不同。比如中文Windows,就可以用GB2312編碼或者GB18030編碼。
用于存儲信息的數據庫也可以使用不同的編碼。數據庫系統軟件安裝時可以設定一個默認編碼,但是在建不同的數據庫時可以指定成用戶需要的編碼。安裝數據庫系統軟件后,如建了兩個數據庫,一個用于處理員工信息,一個用于處理機器設備信息。員工信息可以用GB2312編碼或UTF-16編碼以便支持中文,或者使用Shit-JIS編碼以便支持日文。機器設備信息可以使用ASCII編碼,因為機器設備名稱、IP地址等信息都是ASCII編碼的。
文本損壞的一個重要原因是字節丟失。放在硬盤、優盤等存儲設備上的文檔。受到震動、復雜環境等不可預知的因素的影響,可能會導致文檔的某些字節損壞而造成丟失字節。
數據庫之間的文檔復制,尤其是采用不同編碼的數據庫之間進行文檔復制,也可能造成字節丟失。例如,如果復制的緩存發生數據溢出,就會發生字節丟失。一個跨國公司的多個協作服務器,由于需要支持不同國家中的英文、中文、日文和韓國文用戶,其中的文本采用單字節編碼和雙字節或多字節編碼。在這種協作服務器系統之間同步或備份時,如果方法不當,發生溢出,可能會丟失字節。例如,一種使用多字節編碼的數據庫,每個字符的編碼字節數為1至3個。在拷貝一串字符時,使用了一個512個字節的緩沖區。當存滿這個緩沖區時,由于程序設計問題或內存分配問題,最后一個字符可能沒有復制完整,即丟失了字節。比如:“ABC中國”這幾個字,如果ABC各使用單字節編碼,占用3個字節,中國兩個字采用三字節編碼,分別需要占用三個字節。如果將上述編碼的“ABC中國”存到一個最后的8字節空間里,會導致最后一個字的最后一個字節丟失。
不同文檔格式或數據格式進行格式轉換,尤其是不同編碼的系統或應用之間對包括文本的內容進行格式轉換,也可能發生丟失字節。
由于軟硬件技術的發展,以及多年使用計算機處理各種信息,一些企業用戶可能積累了多種不同的文檔,這些文檔基于不同的軟硬件系統。由于需要處理的情況復雜,在重復利用這些積累的文檔的過程中,文本中丟失字節的現象時有發生。
因此,有必要針對上述不同的情況,采取必要的技術處理措施,以便盡可能恢復受到損壞的文本。并且,需要一種機制,來檢測涉及文本的處理,對該文本是否安全。
發明內容
鑒于已有技術的不足,本發明提供了一種對文本進行處理的方法,包括:確定一文本中的至少部分字符;利用所述至少部分字符作為分隔符,將所述文本劃分為多個文本片段;以及對所述多個文本片段分別進行譯碼。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910136952.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種合并報表方法和裝置
- 下一篇:一種總線外擴抗干擾加密的方法





