[發明專利]一種文本文檔亂碼檢測及修復方法和系統有效
| 申請號: | 201310404131.1 | 申請日: | 2013-09-06 |
| 公開(公告)號: | CN104424010B | 公開(公告)日: | 2017-11-28 |
| 發明(設計)人: | 童征宇;丁力;張鵬 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司;方正信息產業控股有限公司 |
| 主分類號: | G06F9/45 | 分類號: | G06F9/45 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司11250 | 代理人: | 寇海俠 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 文檔 亂碼 檢測 修復 方法 系統 | ||
1.一種文本文檔亂碼檢測及修復方法,其特征在于,包括如下步驟:
建立編碼區間庫步驟,所述編碼區間庫中包括文本文檔編碼格式下所有字符編碼構成的編碼區間;
確定字符編碼的步驟:根據文本文檔的編碼格式,獲取文本文檔中每一個字符的編碼;
亂碼確定步驟,比較每一個所述編碼是否在所述編碼區間內,將不在所述編碼區間內的編碼判斷為亂碼,第一個亂碼和最后一個亂碼之間的編碼構成亂碼區間;
亂碼修復步驟,刪減所述亂碼區間中導致亂碼產生的若干字節,對文本文檔進行修復。
2.根據權利要求1所述的文本文檔亂碼檢測及修復方法,其特征在于:
所述確定字符編碼的步驟進一步包括:
確定字節數步驟,根據文本文檔的編碼格式確定每個字符的編碼對應的字節數;
獲取編碼步驟,按照與所述字節數數量相等的連續字節構成一個字符的編碼的標準,依次獲取文本文檔中每一個字符的編碼。
3.根據權利要求1或2所述文本文檔亂碼檢測及修復方法,其特征在于:
所述亂碼修復步驟進一步包括:
逐字節刪減步驟,逐一刪減所述亂碼區間中導致亂碼產生的字節,形成新的亂碼區間;
第二比較判斷步驟,判斷所述新的亂碼區間中的編碼是否均在所述編碼區間內,若是則修復完成,否則返回至所述逐字節刪減步驟,直到修復完成。
4.根據權利要求3所述的文本文檔亂碼檢測及修復方法,其特征在于:
所述逐字節刪減步驟中,刪減的字節總數小于字符的編碼對應的字節數。
5.根據權利要求1或2所述的文本文檔亂碼檢測及修復方法,其特征在于:
若所述文本文檔編碼格式下字符的編碼對應的字節數為固定值M,其中M為大于或等于2的整數,所述亂碼修復步驟進一步包括:
獲取所述亂碼區間包括的字節總數Z的步驟;
確定刪減字節數步驟,確定刪減字節數S=MOD(Z/M);
字節刪減步驟,刪減所述亂碼區間中導致亂碼產生的S個連續的字節,對所述文本文檔進行修復。
6.根據權利要求1或2所述的文本文檔亂碼檢測及修復方法,其特征在于,還包括如下步驟:
建立字典庫的步驟,所述字典庫中包含不同語言下的常用詞語;
解碼步驟,將所述亂碼修復步驟得到的文本文檔的字符編碼進行解碼,獲得字符;
分詞步驟,對解碼后的所述文本文檔進行分詞操作,得到若干亂碼區間詞語及若干非亂碼區間詞語;
設定閾值Tth的步驟;
獲取比對結果步驟,取出相同個數的所述亂碼區間詞語和所述非亂碼區間詞語,與所述字典庫中的常用詞語進行比對,分別確定所述亂碼區間詞語和所述非亂碼區間詞語在所述字典庫中比對成功的詞語個數,分別獲取亂碼區間詞語比對結果和非亂碼區間詞語比對結果:比對成功的詞語個數/進行比對的詞語個數;
獲取比對結果差值步驟,獲取所述非亂碼區間詞語比對結果與所述亂碼區間詞語比對結果的差值T;
第三比較判斷步驟,將所述差值T同所述閾值Tth進行比較,若T小于或者等于Tth,則修復結果滿足精度要求并顯示修復后文本文檔;若T大于Tth,則提示用戶是否保留顯示修復后文本文檔。
7.一種文本文檔亂碼檢測及修復系統,其特征在于,包括:
編碼區間庫(1),用于存儲文本文檔編碼格式下所有字符編碼構成的編碼區間;
字符編碼獲取模塊(5),用于根據文本文檔的編碼格式,獲取文本文檔中每一個字符的編碼;
亂碼確定模塊(4),用于判斷所述字符編碼獲取模塊(5)獲取的每一個字符的編碼是否在所述編碼區間庫(1)存儲的編碼區間內,將不在所述編碼區間內的編碼判斷為亂碼,并將第一個亂碼和最后一個亂碼之間的編碼確定為亂碼區間;
亂碼修復模塊(6),用于刪減所述亂碼區間中導致亂碼產生的若干字節,對文本文檔進行修復。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司;方正信息產業控股有限公司,未經北大方正集團有限公司;北京方正阿帕比技術有限公司;方正信息產業控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310404131.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:分布式計算事務處理方法及裝置
- 下一篇:信息處理方法和信息處理設備





