[發明專利]用于對文本進行處理的方法和系統有效
| 申請號: | 200910136952.5 | 申請日: | 2009-04-30 |
| 公開(公告)號: | CN101876965A | 公開(公告)日: | 2010-11-03 |
| 發明(設計)人: | 左志波;李彬;沙志強;龐麗群 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 王茂華;李輝 |
| 地址: | 美國紐*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 文本 進行 處理 方法 系統 | ||
1.一種對文本進行處理的方法,包括:
確定一文本中的至少部分字符;
利用所述至少部分字符作為分隔符,將所述文本劃分為多個文本片段;以及
對所述多個文本片段分別進行譯碼。
2.根據權利要求1所述的方法,其中,所述文本至少包括雙字節編碼字符和多字節編碼字符其中之一;所述至少部分字符為至少部分標點符號,所述確定一文本中的至少部分字符進一步配置為,根據標點符號的編碼確定所述文本中的至少部分標點符號。
3.根據權利要求1或2所述的方法,其中對所述多個文本片段分別進行譯碼包括:
根據第一譯碼方法對所述多個文本片段分別進行譯碼,以便得到所述文本的第一譯碼結果;以及
根據第二譯碼方法對所述多個文本片段分別進行譯碼,以便得到所述文本的第二譯碼結果;
所述方法進一步包括:
將所述文本的第一譯碼結果,與所述文本的第二譯碼結果進行比較,以便確定譯碼差別。
4.根據權利要求3所述的方法,其中,
分別從每個文本片段的頭部開始對所述多個文本片段進行譯碼,以便得到所述文本的第一譯碼結果;
分別從每個文本片段的尾部開始對所述多個文本片段進行譯碼,以便得到所述文本的第二譯碼結果。
5.根據權利要求1或2所述的方法,其中,對所述多個文本片段分別進行譯碼,以便得到所述文本的第一譯碼結果;
所述方法進一步包括:
確定所述文本中的另一部分字符;
利用所述另一部分字符作為分隔符,將所述文本劃分為第二多個文本片段;
對所述第二多個文本片段分別進行譯碼,以便得到所述文本的第二譯碼結果;以及
將所述文本的第一譯碼結果,與所述文本的第二譯碼結果進行比較,以便確定譯碼差別。
6.根據權利要求2所述的方法,其中對所述多個文本片段分別進行譯碼進一步包括:
從一文本片段的頭部開始向后進行譯碼,作為所述文本片段的第一譯碼結果,并且從所述文本片段的尾部開始向前進行譯碼,作為所述文本片段的第二譯碼結果。
7.根據權利要求2所述的方法,其中所述文本包括具有雙字節編碼的文本片段,所述方法進一步包括:
確定所述雙字節編碼的文本片段包括的字節數是否為奇數;
如果所述文本片段包括的字節數是奇數,從所述文本片段的頭部開始向后進行譯碼,作為所述文本片段的第一譯碼結果,并且從所述文本片段的尾部開始向前進行譯碼,作為所述文本片段的第二譯碼結果。
8.根據權利要求6或7所述的方法,其中進一步包括:
從所述第一譯碼結果中確定所述文本片段的前部成分;
從所述第二譯碼結果中確定所述文本片段的后部成分;以及
將所述前部成分和所述后部成分組合為所述文本片段的最終譯碼結果。
9.根據權利要求8所述的方法,其中進一步包括:
確定一文本片段是否包括ASCII編碼字符;
如果所述文本片段中包括一ASCII編碼字符,則利用所述ASCII編碼字符作為分隔符將所述文本片段進一步劃分為兩個子文本片段,并且對所述兩個子文本片段分別進行譯碼。
10.根據權利要求2、6和7中任一項所述的方法,其中至少部分標點符號包括“,”“。”“;”“:”“!”“?”或“、”;所述文本至少包括中文文本、日文文本和韓國語文本中的一種。
11.一種對文本進行處理的系統,包括:
字符確定模塊,用于確定一文本中的至少部分字符;
文本片段劃分模塊,用于利用所述至少部分字符作為分隔符,將所述文本劃分為多個文本片段;以及
譯碼模塊,用于對所述多個文本片段分別進行譯碼。
12.根據權利要求11所述的系統,其中,所述文本至少包括雙字節編碼字符和多字節編碼字符其中之一;所述至少部分字符為至少部分標點符號,所述字符確定模塊進一步配置為,根據標點符號的編碼確定所述文本中的至少部分標點符號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910136952.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種合并報表方法和裝置
- 下一篇:一種總線外擴抗干擾加密的方法





